Απόδοση και μεγάλα δεδομένα - ανδρείκελα

Βίντεο: Δε σπάει, Δε χαλάει! AGM A2 Rio 2024

Μόνο ο ταχύτερος υπολογιστής δεν είναι αρκετός για να εξασφαλίσει το σωστό επίπεδο απόδοσης για να χειριστεί τα μεγάλα δεδομένα. Πρέπει να μπορείτε να διανέμετε στοιχεία της μεγάλης υπηρεσίας δεδομένων σας σε μια σειρά κόμβων. Στον κατανεμημένο υπολογισμό, ένας κόμβος είναι ένα στοιχείο που περιέχεται μέσα σε ένα σύμπλεγμα συστημάτων ή μέσα σε ένα rack.

Ένας κόμβος περιλαμβάνει συνήθως CPU, μνήμη και κάποιο είδος δίσκου. Ωστόσο, ένας κόμβος μπορεί επίσης να είναι CPU blade και μνήμη που βασίζονται σε κοντινή αποθήκευση μέσα σε ένα rack.

Μέσα σε ένα μεγάλο περιβάλλον δεδομένων, αυτοί οι κόμβοι είναι συνήθως συγκεντρωμένοι μαζί για να παρέχουν κλίμακα. Για παράδειγμα, μπορείτε να ξεκινήσετε με μια μεγάλη ανάλυση δεδομένων και να συνεχίσετε να προσθέτετε περισσότερες πηγές δεδομένων. Για να ικανοποιήσει την ανάπτυξη, ένας οργανισμός προσθέτει απλώς περισσότερους κόμβους σε ένα σύμπλεγμα, έτσι ώστε να μπορεί να κλιμακωθεί για να ικανοποιήσει τις αυξανόμενες απαιτήσεις.

Ωστόσο, δεν αρκεί απλά να επεκτείνετε τον αριθμό των κόμβων στο σύμπλεγμα. Αντίθετα, είναι σημαντικό να μπορείτε να στέλνετε μέρος της μεγάλης ανάλυσης δεδομένων σε διαφορετικά φυσικά περιβάλλοντα. Όπου στέλνετε αυτές τις εργασίες και πώς τους διαχειρίζεστε, κάνει τη διαφορά μεταξύ επιτυχίας και αποτυχίας.

Σε ορισμένες περίπλοκες καταστάσεις, ίσως θελήσετε να εκτελέσετε πολλούς διαφορετικούς αλγόριθμους παράλληλα, ακόμη και μέσα στο ίδιο σύμπλεγμα, για να επιτύχετε την απαιτούμενη ταχύτητα ανάλυσης. Γιατί θα εκτελέσετε διαφορετικούς αλγόριθμους μεγάλων δεδομένων παράλληλα μέσα στο ίδιο rack; Όσο πιο κοντά βρίσκονται οι κατανομές των λειτουργιών, τόσο πιο γρήγορα μπορούν να εκτελέσουν.

Παρόλο που είναι δυνατή η διανομή μεγάλης ανάλυσης δεδομένων σε δίκτυα για να επωφεληθείτε από τη διαθέσιμη χωρητικότητα, πρέπει να κάνετε αυτό το είδος διανομής με βάση τις απαιτήσεις για απόδοση. Σε ορισμένες περιπτώσεις, η ταχύτητα επεξεργασίας παίρνει ένα πίσω κάθισμα. Ωστόσο, σε άλλες περιπτώσεις, η επίτευξη αποτελεσμάτων γρήγορα είναι η απαίτηση. Σε αυτήν την περίπτωση, θέλετε να βεβαιωθείτε ότι οι λειτουργίες δικτύωσης βρίσκονται σε μικρή απόσταση μεταξύ τους.

Γενικά, το μεγάλο περιβάλλον δεδομένων πρέπει να βελτιστοποιηθεί για τον τύπο του έργου ανάλυσης. Ως εκ τούτου, η επεκτασιμότητα είναι το lynchpin της παραγωγής μεγάλων δεδομένων λειτουργούν με επιτυχία. Αν και θα ήταν θεωρητικά δυνατό να λειτουργήσει ένα μεγάλο περιβάλλον δεδομένων μέσα σε ένα ενιαίο μεγάλο περιβάλλον, δεν είναι πρακτικό.

Για να κατανοήσουμε τις ανάγκες κλιμάκωσης στα μεγάλα δεδομένα, πρέπει κανείς να εξετάσει την επεκτασιμότητα του cloud και να κατανοήσει τόσο τις απαιτήσεις όσο και την προσέγγιση. Όπως τα cloud computing, τα μεγάλα δεδομένα απαιτούν την ενσωμάτωση γρήγορων δικτύων και φθηνών συμπλεγμάτων υλικού που μπορούν να συνδυαστούν σε ράφια για να αυξήσουν την απόδοση. Αυτά τα συμπλέγματα υποστηρίζονται από αυτοματοποίηση λογισμικού που επιτρέπει δυναμική κλιμάκωση και εξισορρόπηση φορτίου.

Ο σχεδιασμός και οι εφαρμογές του MapReduce είναι εξαιρετικά παραδείγματα για το πώς ο κατανεμημένος υπολογιστής μπορεί να κάνει τα μεγάλα δεδομένα λειτουργικά ορατά και προσιτά. Στην ουσία, οι εταιρείες βρίσκονται σε ένα από τα μοναδικά σημεία καμπής στον υπολογισμό όπου οι τεχνολογικές ιδέες έρχονται μαζί στην κατάλληλη στιγμή για να λύσουν τα σωστά προβλήματα. Ο συνδυασμός κατανεμημένων υπολογιστών, βελτιωμένων συστημάτων υλικού και πρακτικών λύσεων όπως οι MapReduce και Hadoop αλλάζουν βαθιά τη διαχείριση δεδομένων.