Πίνακας περιεχομένων:
- Για να εξισορροπηθούν σημαντικοί παράγοντες όπως το συνολικό κόστος ιδιοκτησίας, η χωρητικότητα αποθήκευσης και η απόδοση, θα πρέπει να σχεδιάσετε προσεκτικά το σχεδιασμό των κόμβων σκλάβων.
Βίντεο: Πύργος Βασιλικού, Βασιλικό, Εύβοια 2024
Σε ένα σύμπλεγμα Hadoop, κάθε κόμβος δεδομένων (γνωστός και ως κόμβος υποτελούς υποβάθρου που ονομάζεται DataNode. Αυτή η διαδικασία παρασκηνίου (γνωστή και ως δαίμονας ) παρακολουθεί τις φέτες δεδομένων που αποθηκεύει το σύστημα στον υπολογιστή του. Συχνά μιλάει στον κεντρικό διακομιστή για το HDFS (γνωστό ως NameNode) για να αναφέρει την υγεία και την κατάσταση των τοπικά αποθηκευμένων δεδομένων.
Τα μπλοκ δεδομένων αποθηκεύονται ως ακατέργαστα αρχεία στο τοπικό σύστημα αρχείων. Από τη σκοπιά ενός χρήστη Hadoop, δεν έχετε ιδέα ποιος από τους κόμβους του σκλάβου έχει τα κομμάτια του αρχείου που πρέπει να επεξεργαστείτε. Από το εσωτερικό του Hadoop, δεν βλέπετε μπλοκ δεδομένων ή τον τρόπο με τον οποίο διανέμονται σε ολόκληρο το σύμπλεγμα - το μόνο που βλέπετε είναι μια λίστα αρχείων σε HDFS.
Η πολυπλοκότητα του τρόπου κατανομής των μπλοκ αρχείων σε ολόκληρο το σύμπλεγμα είναι κρυφό από εσάς - δεν ξέρετε πόσο περίπλοκη είναι όλα αυτά και δεν χρειάζεστε για να ξέρω. Στην πραγματικότητα, οι ίδιοι οι κόμβοι σκλάβων δεν γνωρίζουν καν τι υπάρχει μέσα στα μπλοκ δεδομένων που αποθηκεύουν. Είναι ο διακομιστής NameNode που γνωρίζει τις αντιστοιχίσεις των οποίων τα μπλοκ δεδομένων συνθέτουν τα αρχεία που είναι αποθηκευμένα σε HDFS. Καλύτερη διαβίωση με απόλυση
Με βάση ένα ετήσιο ποσοστό αποτυχίας (AFR) 4% για μονάδες δίσκων βασικών προϊόντων (μια δεδομένη μονάδα σκληρού δίσκου έχει 4% πιθανότητα αποτυχίας σε ένα δεδομένο έτος, με άλλα λόγια), το σύμπλεγμα σας πιθανότατα θα εμφανίσει έναν σκληρό δίσκο αποτυχία κάθε μέρα του έτους.
Επειδή μπορεί να υπάρχουν τόσοι πολλοί σκλάβοι κόμβοι, η αποτυχία τους είναι επίσης ένα συνηθισμένο φαινόμενο σε μεγαλύτερες ομάδες με εκατοντάδες ή περισσότερους κόμβους. Λαμβάνοντας υπόψη αυτές τις πληροφορίες, το HDFS έχει σχεδιαστεί με την προϋπόθεση ότι τα στοιχεία υλικού
όλα , ακόμη και στο επίπεδο κόμβου υποτελούς, δεν είναι αξιόπιστα. Το HDFS ξεπερνά την αναξιοπιστία των μεμονωμένων στοιχείων υλικού μέσω πλεονασμού: Αυτή είναι η ιδέα πίσω από τα τρία αντίγραφα κάθε αρχείου που είναι αποθηκευμένα σε HDFS, που διανέμονται σε όλο το σύστημα.Ειδικότερα, κάθε μπλοκ αρχείων που είναι αποθηκευμένο σε HDFS έχει συνολικά τρία αντίγραφα. Εάν ένα σύστημα σπάσει με ένα συγκεκριμένο μπλοκ αρχείων που χρειάζεστε, μπορείτε να μεταβείτε στις άλλες δύο.
Σχεδίαση διακομιστή κόμβων
Για να εξισορροπηθούν σημαντικοί παράγοντες όπως το συνολικό κόστος ιδιοκτησίας, η χωρητικότητα αποθήκευσης και η απόδοση, θα πρέπει να σχεδιάσετε προσεκτικά το σχεδιασμό των κόμβων σκλάβων.
Συνήθως βλέπετε τους σκλάβους κόμβους, όπου κάθε κόμβος έχει τυπικά μεταξύ 12 και 16 τοπικά συνδεδεμένους σκληρούς δίσκους 3TB. Οι κόμβοι Slave χρησιμοποιούν μετρίως γρήγορες επεξεργαστές διπλής υποδοχής με έξι έως οκτώ πυρήνες η κάθε μια - χωρίς δαίμονες ταχύτητας, με άλλα λόγια. Αυτό συνοδεύεται από 48GB μνήμης RAM. Με λίγα λόγια, αυτός ο server είναι βελτιστοποιημένος για πυκνή αποθήκευση.
Επειδή το HDFS είναι ένα σύστημα αρχείων σε επίπεδο χώρου χρήστη, είναι σημαντικό να βελτιστοποιήσετε το τοπικό σύστημα αρχείων στους κόμβους υποτελούς για να εργαστείτε με το HDFS. Από αυτή την άποψη, μια απόφαση υψηλής επίπτωσης κατά τη δημιουργία των διακομιστών σας επιλέγει ένα σύστημα αρχείων για την εγκατάσταση του Linux στους κόμβους σκλάβων.
Το Ext3 είναι το συνηθέστερο σύστημα αρχείων, επειδή υπήρξε η πιο σταθερή επιλογή για αρκετά χρόνια. Ρίξτε μια ματιά στο Ext4, ωστόσο. Είναι η επόμενη έκδοση του Ext3 και είναι διαθέσιμη αρκετά για να θεωρηθεί ευρέως σταθερή και αξιόπιστη.
Το πιο σημαντικό για τους σκοπούς μας, έχει αρκετές βελτιστοποιήσεις για το χειρισμό μεγάλων αρχείων, γεγονός που την καθιστά ιδανική επιλογή για εξυπηρετητές κόμβων HDFS.
Μην χρησιμοποιείτε το Linux Logical Volume Manager (LVM) - αντιπροσωπεύει ένα πρόσθετο στρώμα μεταξύ του συστήματος αρχείων Linux και του HDFS, το οποίο εμποδίζει τον Hadoop να βελτιστοποιήσει την απόδοσή του. Συγκεκριμένα, η LVM συσσωρεύει δίσκους, γεγονός που παρεμποδίζει τη διαχείριση των πόρων που κάνουν τα αρχεία HDFS και YARN, με βάση τον τρόπο διανομής των αρχείων στις φυσικές μονάδες δίσκου.