Βίντεο: Θ. Σκυλακάκης στο One Channel: «Κλειδί» ο σχεδιασμός μίας μόνιμης κοινωνικής πολιτικής 2024
Η ταξινόμηση κάθε συστήματος επεξεργασίας δεδομένων είναι εξίσου επιστήμη είναι μια τέχνη.Με τον Hadoop, θεωρείτε τις ίδιες πληροφορίες όπως και με μια σχεσιακή βάση δεδομένων, για παράδειγμα.Πολύ σημαντικά, πρέπει να ξέρετε πόσα δεδομένα έχετε, να εκτιμήσετε τους αναμενόμενους ρυθμούς ανάπτυξης και να δημιουργήσετε μια πολιτική διατήρησης (πόσο καιρό για να διατηρήσετε τα δεδομένα.
Οι απαντήσεις σε αυτές τις ερωτήσεις χρησιμεύουν ως σημείο εκκίνησης, ανεξάρτητα από τις απαιτήσεις που σχετίζονται με την τεχνολογία. πρέπει να αποθηκεύσετε, μπορείτε να ξεκινήσετε την παραγοντοποίηση σε συγκεκριμένες παραμέτρους του Hadoop.Αν υποθέσετε ότι έχετε μια εταιρεία τηλεπικοινωνιών και έχετε διαπιστώσει ότι χρειάζεστε χώρο αποθήκευσης 750 terabytes (TB) για τα αρχεία καταγραφής της εγγραφής λεπτομερειών κλήσεων (CDR). < Διατηρείτε αυτά τα αρχεία για να τηρείτε τους κυβερνητικούς κανονισμούς, αλλά μπορείτε επίσης να τα αναλύσετε o δείτε τα μοτίβα αναπήδησης και την παρακολούθηση της υγείας του δικτύου, για παράδειγμα. Για να καθορίσετε πόσα αποθηκευτικό χώρο χρειάζεστε και ως εκ τούτου, πόσα rack και υποτελείς κόμβους χρειάζεστε, πραγματοποιείτε τους υπολογισμούς σας με αυτούς τους παράγοντες:
Η αναπαραγωγή:
-
Ο προεπιλεγμένος παράγοντας αναπαραγωγής για δεδομένα σε HDFS είναι 3. Τα 500 terabytes των δεδομένων CDR για την εταιρεία τηλεπικοινωνιών στο παράδειγμα μετατρέπονται σε 1500 terabytes. Χώρος ανταλλαγής:
-
Οποιαδήποτε ανάλυση ή επεξεργασία των δεδομένων από το MapReduce απαιτεί επιπλέον 25% χώρου για την αποθήκευση οποιωνδήποτε συνόλων προσωρινών και τελικών αποτελεσμάτων. (Η εταιρεία τηλεπικοινωνιών χρειάζεται τώρα 1875 terabytes αποθηκευτικού χώρου.) Αριθμός υποτελών κόμβων:
-
Υποθέτοντας ότι κάθε κόμβος υποτελούς μονάδας διαθέτει δώδεκα μονάδες δίσκου 3TB που είναι αφιερωμένες σε HDFS, κάθε κόμβος υποτελούς διαθέτει 36 terabytes πρώτης αποθήκευσης HDFS, οπότε η εταιρεία χρειάζεται 18 κόμβους υποτελούς. Αριθμός ράβδων:
-
Επειδή κάθε κόμβος υποτελούς χρήσης χρησιμοποιεί 2RU και η εταιρεία στο παράδειγμα χρειάζεται τρεις κύριους κόμβους (1RU κομμάτι) και δύο διακόπτες ToR (1RU κομμάτι), χρειάζεστε συνολικά 41RU. Είναι 1RU μικρότερη από τη συνολική χωρητικότητα ενός τυποποιημένου rack, επομένως ένα μόνο rack είναι αρκετό για αυτή την ανάπτυξη. Ανεξαρτήτως, δεν υπάρχει χώρος για ανάπτυξη σε αυτό το σύμπλεγμα, οπότε είναι συνετό να αγοράσετε ένα δεύτερο rack (και δύο πρόσθετους διακόπτες ToR) και να διαιρέσετε τους κόμβους υποτελών μεταξύ των δύο ράφια.
-
Δοκιμές: Η διατήρηση ενός συγκροτήματος δοκιμών που αντιπροσωπεύει μικρότερη κλίμακα της ομάδας παραγωγής είναι μια συνήθης πρακτική. Δεν χρειάζεται να είναι τεράστιο, αλλά θέλετε τουλάχιστον πέντε κόμβους δεδομένων, ώστε να έχετε μια ακριβή αναπαράσταση της συμπεριφοράς του Hadoop.Όπως συμβαίνει με οποιοδήποτε περιβάλλον δοκιμών, πρέπει να απομονωθεί σε διαφορετικό δίκτυο από το σύμπλεγμα παραγωγής.
Ανάκτηση αντιγράφων ασφαλείας και καταστροφών:
-
Όπως κάθε σύστημα παραγωγής, η εταιρεία τηλεπικοινωνιών θα πρέπει επίσης να εξετάσει τις απαιτήσεις δημιουργίας αντιγράφων ασφαλείας και ανάκτησης καταστροφών. Αυτή η εταιρεία θα μπορούσε να φτάσει μέχρι και να δημιουργήσει ένα συγκρότημα καθρέφτη για να εξασφαλίσει ότι έχουν μια θερμή αναμονή για ολόκληρο το σύστημά τους. Αυτή είναι προφανώς η πιο ακριβή επιλογή, αλλά είναι κατάλληλη για περιβάλλοντα όπου το σταθερό χρόνο λειτουργίας είναι κρίσιμο. Στο λιγότερο δαπανηρό τέλος του φάσματος (εκτός από το ότι δεν υποστηρίζεται καθόλου τα δεδομένα), η εταιρεία τηλεπικοινωνιών θα μπορούσε να αποθηκεύει τακτικά όλα τα δεδομένα (συμπεριλαμβανομένων των ίδιων των δεδομένων, των εφαρμογών, των αρχείων ρυθμίσεων και των μεταδεδομένων) στην ταινία. Με την ταινία, τα δεδομένα δεν είναι άμεσα προσβάσιμα, αλλά θα επιτρέψουν μια προσπάθεια αποκατάστασης καταστροφών στην περίπτωση που αποτύχει ολόκληρο το σύμπλεγμα παραγωγής Hadoop.
-
Όπως και με τον προσωπικό σας υπολογιστή, όταν ο κύριος σκληρός δίσκος γεμίζει με χώρο, το σύστημα επιβραδύνεται σημαντικά. Ο Hadoop δεν αποτελεί εξαίρεση. Επίσης, ένας σκληρός δίσκος λειτουργεί καλύτερα όταν είναι μικρότερος από 85 έως 90 τοις εκατό πλήρης. Λαμβάνοντας υπόψη αυτές τις πληροφορίες, εάν η απόδοση είναι σημαντική για εσάς, θα πρέπει να αυξήσετε τον συντελεστή ανταλλαγής από 25 σε 33%.