Σπίτι Προσωπικά Οικονομικά Hadoop Κατανεμημένο Σύστημα Αρχείων (HDFS) για Μεγάλα Έργα Δεδομένων

Hadoop Κατανεμημένο Σύστημα Αρχείων (HDFS) για Μεγάλα Έργα Δεδομένων

Πίνακας περιεχομένων:

Βίντεο: hadoop yarn architecture 2024

Βίντεο: hadoop yarn architecture 2024
Anonim

Το Hadoop Distributed File System είναι μια ευέλικτη, ανθεκτική, συγκεντρωτική προσέγγιση για τη διαχείριση αρχείων σε ένα μεγάλο περιβάλλον δεδομένων. Το HDFS δεν είναι ο τελικός προορισμός για αρχεία. Αντίθετα, είναι μια υπηρεσία δεδομένων που προσφέρει ένα μοναδικό σύνολο δυνατοτήτων που απαιτούνται όταν οι όγκοι δεδομένων και η ταχύτητα είναι υψηλές. Επειδή τα δεδομένα γράφονται μία φορά και στη συνέχεια διαβάζονται πολλές φορές στη συνέχεια, αντί για τις συνεχείς αναγνώσεις άλλων συστημάτων αρχείων, το HDFS είναι μια εξαιρετική επιλογή για την υποστήριξη της μεγάλης ανάλυσης δεδομένων.

Μεγάλα δεδομένα NameNodes

Το HDFS λειτουργεί με σπάσιμο μεγάλων αρχείων σε μικρότερα κομμάτια που ονομάζονται μπλοκ . Τα μπλοκ αποθηκεύονται στους κόμβους δεδομένων και είναι ευθύνη του NameNode να γνωρίζει ποια μπλοκ στα οποία οι κόμβοι δεδομένων συνθέτουν το πλήρες αρχείο. Το όνομαNode λειτουργεί επίσης ως "αστυνομικός κυκλοφορίας", διαχειρίζοντας όλη την πρόσβαση στα αρχεία.

Η πλήρης συλλογή όλων των αρχείων στο σύμπλεγμα αναφέρεται μερικές φορές ως ο χώρος ονομάτων συστήματος αρχείων . Είναι η δουλειά του ΌνομαNode για να διαχειριστεί αυτό το χώρο ονομάτων.

Παρόλο που υπάρχει ισχυρή σχέση μεταξύ του ονόματοςNode και των κόμβων δεδομένων, λειτουργούν με τρόπο «χαλαρά συζευγμένο». Αυτό επιτρέπει στα στοιχεία του συμπλέγματος να συμπεριφέρονται δυναμικά, προσθέτοντας διακομιστές καθώς αυξάνεται η ζήτηση. Σε μια τυπική διαμόρφωση, βρίσκετε ένα όνομαNode και ενδεχομένως έναν κόμβο δεδομένων που εκτελείται σε ένα φυσικό διακομιστή στο rack. Άλλοι διακομιστές εκτελούν μόνο κόμβους δεδομένων.

Οι κόμβοι δεδομένων επικοινωνούν μεταξύ τους έτσι ώστε να μπορούν να συνεργάζονται κατά τη διάρκεια κανονικών λειτουργιών του συστήματος αρχείων. Αυτό είναι απαραίτητο επειδή τα μπλοκ για ένα αρχείο είναι πιθανό να αποθηκευτούν σε πολλούς κόμβους δεδομένων. Δεδομένου ότι το όνομαNode είναι τόσο κρίσιμο για τη σωστή λειτουργία του συμπλέγματος, μπορεί και πρέπει να αναπαράγεται για να προστατεύεται από μία αποτυχία ενός σημείου.

Μεγάλοι κόμβοι δεδομένων

Οι κόμβοι δεδομένων δεν είναι έξυπνοι, αλλά είναι ανθεκτικοί. Μέσα στο συμπλέγμα HDFS, τα μπλοκ δεδομένων αναπαράγονται σε πολλαπλούς κόμβους δεδομένων και η διαχείριση γίνεται από το όνομαNode. Ο μηχανισμός αναπαραγωγής έχει σχεδιαστεί για τη βέλτιστη απόδοση όταν όλοι οι κόμβοι του συγκροτήματος συλλέγονται σε ράφι. Στην πραγματικότητα, το ΌνομαNode χρησιμοποιεί ένα "ID rack" για να παρακολουθεί τους κόμβους δεδομένων στο σύμπλεγμα.

Οι κόμβοι δεδομένων παρέχουν επίσης μηνύματα "καρδιάς" για την ανίχνευση και διασφάλιση της σύνδεσης μεταξύ του ονόματοςNode και των κόμβων δεδομένων. Όταν δεν υπάρχει παλμός παλμού, το NameNode παύει τον κόμβο δεδομένων από το σύμπλεγμα και συνεχίζει να λειτουργεί σαν να μην συνέβη τίποτε. Όταν ο καρδιακός παλμός επιστρέφει, προστίθεται στο σύμπλεγμα με διαφάνεια σε σχέση με τον χρήστη ή την εφαρμογή.

Η ακεραιότητα των δεδομένων είναι ένα βασικό χαρακτηριστικό. Το HDFS υποστηρίζει μια σειρά δυνατοτήτων που έχουν σχεδιαστεί για να παρέχουν ακεραιότητα δεδομένων. Όπως ίσως αναμένετε, όταν τα αρχεία σπάσουν σε μπλοκ και στη συνέχεια διανεμηθούν σε διαφορετικούς διακομιστές στο σύμπλεγμα, οποιαδήποτε παραλλαγή στη λειτουργία οποιουδήποτε στοιχείου μπορεί να επηρεάσει την ακεραιότητα των δεδομένων. Το HDFS χρησιμοποιεί τα αρχεία καταγραφής συναλλαγών και την επικύρωση του αθροίσματος ελέγχου για να διασφαλίσει την ακεραιότητα σε ολόκληρο το σύμπλεγμα.

Τα αρχεία καταγραφής συναλλαγών παρακολουθούν κάθε λειτουργία και είναι αποτελεσματικά στον έλεγχο ή στην ανασυγκρότηση του συστήματος αρχείων σε περίπτωση που προκύψει κάτι άσχημο.

Οι επικυρώσεις του αθροίσματος ελέγχου χρησιμοποιούνται για την εγγύηση του περιεχομένου των αρχείων σε HDFS. Όταν ένας πελάτης ζητά ένα αρχείο, μπορεί να επαληθεύσει το περιεχόμενο εξετάζοντας το άθροισμά του ελέγχου. Εάν το ποσό ελέγχου συμπίπτει, η λειτουργία του αρχείου μπορεί να συνεχιστεί. Εάν όχι, έχει αναφερθεί ένα σφάλμα. Τα αρχεία του Checksum είναι κρυμμένα για να αποφύγετε την παραβίαση.

Οι κόμβοι δεδομένων χρησιμοποιούν τοπικούς δίσκους στο διακομιστή βασικών προϊόντων για επιμονή. Όλα τα μπλοκ δεδομένων αποθηκεύονται τοπικά, κυρίως για λόγους απόδοσης. Τα μπλοκ δεδομένων αναπαράγονται σε διάφορους κόμβους δεδομένων, οπότε η αποτυχία ενός διακομιστή ενδέχεται να μην καταστρέφει απαραιτήτως ένα αρχείο. Ο βαθμός αναπαραγωγής, ο αριθμός των κόμβων δεδομένων και ο χώρος ονομάτων HDFS καθορίζονται κατά την εφαρμογή του συμπλέγματος.

Το HDFS για τα μεγάλα δεδομένα

Το HDFS αντιμετωπίζει τις μεγάλες προκλήσεις δεδομένων με το σπάσιμο των αρχείων σε μια σχετική συλλογή μικρότερων μονάδων. Αυτά τα μπλοκ κατανέμονται μεταξύ των κόμβων δεδομένων του συμπλέγματος HDFS και διοικούνται από το όνομαNode. Τα μεγέθη μπλοκ είναι διαμορφώσιμα και συνήθως είναι 128 megabyte (MB) ή 256MB, πράγμα που σημαίνει ότι ένα αρχείο 1GB καταναλώνει οκτώ μπλοκ 128MB για τις βασικές ανάγκες αποθήκευσης.

Το HDFS είναι ελαστικό, έτσι ώστε αυτά τα μπλοκ να αναπαραχθούν σε όλο το σύμπλεγμα σε περίπτωση αποτυχίας διακομιστή. Πώς παρακολουθεί το HDFS όλα αυτά τα κομμάτια; Η σύντομη απάντηση είναι το μεταδεδομένα συστήματος αρχείων.

Τα μεταδεδομένα ορίζονται ως "δεδομένα σχετικά με τα δεδομένα. "Σκεφτείτε τα μεταδεδομένα HDFS ως πρότυπο για την παροχή λεπτομερούς περιγραφής των παρακάτω:

  • Όταν το αρχείο δημιουργήθηκε, επετράπη, τροποποιήθηκε, διαγράφηκε και ούτω καθεξής

  • Όπου τα μπλοκ του αρχείου αποθηκεύονται στο σύμπλεγμα < Ποιος έχει δικαιώματα προβολής ή τροποποίησης του αρχείου

  • Πόσα αρχεία αποθηκεύονται στο σύμπλεγμα

  • Πόσοι κόμβοι δεδομένων υπάρχουν στο σύμπλεγμα

  • Η θέση του αρχείου καταγραφής συναλλαγών για το σύμπλεγμα

  • HDFS τα μεταδεδομένα αποθηκεύονται στο ΌνομαNode και ενώ το σύμπλεγμα λειτουργεί, όλα τα μεταδεδομένα φορτώνονται στη φυσική μνήμη του διακομιστή NameNode. Όπως μπορείτε να περιμένετε, όσο μεγαλύτερο είναι το σύμπλεγμα, τόσο μεγαλύτερο είναι το αποτύπωμα των μεταδεδομένων.

Τι ακριβώς κάνει ένας διακομιστής μπλοκ; Ελέγξτε την ακόλουθη λίστα:

Αποθηκεύει τα μπλοκ δεδομένων στο τοπικό σύστημα αρχείων του διακομιστή. Το HDFS είναι διαθέσιμο σε πολλά διαφορετικά λειτουργικά συστήματα και συμπεριφέρεται το ίδιο είτε σε Windows, Mac OS ή Linux.

  • Αποθηκεύει τα μεταδεδομένα ενός μπλοκ στο τοπικό σύστημα αρχείων με βάση το πρότυπο μεταδεδομένων στο ΌνομαNode.

  • Εκτελεί περιοδικές επικυρώσεις των αθροισμάτων ελέγχου αρχείων.

  • Στέλνει τακτικά αναφορές στο ΌνομαNode σχετικά με τα μπλοκ που είναι διαθέσιμα για τις λειτουργίες αρχείων.

  • Παρέχει μεταδεδομένα και δεδομένα σε πελάτες κατόπιν ζήτησης. Το HDFS υποστηρίζει την άμεση πρόσβαση στους κόμβους δεδομένων από προγράμματα εφαρμογών-πελάτη.

  • Προωθεί δεδομένα σε άλλους κόμβους δεδομένων με βάση ένα μοντέλο "pipelining".

  • Η τοποθέτηση μπλοκ στους κόμβους δεδομένων είναι κρίσιμη για την αναπαραγωγή δεδομένων και την υποστήριξη για τη διαβίβαση δεδομένων. Το HDFS διατηρεί ένα αντίγραφο κάθε μπλοκ τοπικά. Το HDFS είναι σοβαρό για την αναπαραγωγή δεδομένων και την ανθεκτικότητα.

Hadoop Κατανεμημένο Σύστημα Αρχείων (HDFS) για Μεγάλα Έργα Δεδομένων

Η επιλογή των συντακτών

Εξαρτήματα ηλεκτρονικών: Ενισχυτές ανοιχτού βρόχου

Εξαρτήματα ηλεκτρονικών: Ενισχυτές ανοιχτού βρόχου

Οι πιο βασικές ηλεκτρονικές χρήσεις ενός ενισχυτή Op είναι ως ενισχυτής. Εάν συνδέσετε μια πηγή εισόδου σε έναν από τους ακροδέκτες εισόδου και γειώσετε τον άλλο ακροδέκτη εισόδου, εμφανίζεται μια ενισχυμένη έκδοση του σήματος εισόδου στο εξωτερικό τερματικό. Μια σημαντική ιδέα στα κυκλώματα op-amp ...

Ηλεκτρονικά Στοιχεία: Δημοφιλή Op Amp Ενσωματωμένα Κυκλώματα - Dummy

Ηλεκτρονικά Στοιχεία: Δημοφιλή Op Amp Ενσωματωμένα Κυκλώματα - Dummy

Για την οικοδόμηση ενός πραγματικού ηλεκτρονικού κυκλώματος χρησιμοποιώντας Op-amp, φυσικά, θα πρέπει να χρησιμοποιήσετε ένα πραγματικό ενισχυτή op. Ευτυχώς, τα ενσωματωμένα ολοκληρωμένα κυκλώματα (IC) είναι άφθονα και σχεδόν όλα τα καταστήματα που πωλούν ηλεκτρονικά εξαρτήματα πωλούν διάφορους τύπους φθηνών IC-ενισχυτών. Το πιο δημοφιλές op-amp IC είναι το LM741, το οποίο έρχεται ...

Ηλεκτρονικά Συστατικά: Κύκλοι ταλαντωτών - ανδρείκελοι

Ηλεκτρονικά Συστατικά: Κύκλοι ταλαντωτών - ανδρείκελοι

. Η ακριβής κυματομορφή που παράγεται εξαρτάται από τον τύπο του κυκλώματος που χρησιμοποιείται για τη δημιουργία του ταλαντωτή. Ένα από τα συνηθέστερα χρησιμοποιούμενα κυκλώματα ταλαντωτών είναι κατασκευασμένο από ένα ζεύγος τρανζίστορ που είναι εφοδιασμένα για να εναλλάσσονται και να σβήνουν εναλλάξ. Αυτός ο τύπος κυκλώματος είναι ...

Η επιλογή των συντακτών

Ασκήσεις για ανδρείκελα Κατάρτιση για ανδρείκελα Εξάσκηση - ανδρείκελα

Ασκήσεις για ανδρείκελα Κατάρτιση για ανδρείκελα Εξάσκηση - ανδρείκελα

Η ασήμαντη εκπαίδευση είναι ένα σημαντικό βήμα στην ανάπτυξη των παιδιών. Ως γονέας, θα πρέπει να αναγνωρίσετε τα σημάδια ότι το παιδί σας είναι έτοιμο για την ομιλία της τουαλέτας, να ξεκινήσει μια διαδικασία ασήμαντης κατάρτισης, να συνεχίσει τη διαδικασία και να αναγνωρίσει πότε το παιδί σας είναι σχεδόν εκεί. Κατά τη διάρκεια της διαδρομής, πρέπει να σιγουρευτείτε ότι το παιδί σας ξέρει ...

Εκπαίδευση για παιδιά με αναπηρίες - ανδρείκελα

Εκπαίδευση για παιδιά με αναπηρίες - ανδρείκελα

Παιδιά, ανάλογα με την αναπηρία. Μπορεί να χρειαστεί να παρέχετε στηρίγματα υψηλής τεχνολογίας που διευκολύνουν την κίνηση από τον περιπατητή ή την αναπηρική καρέκλα στην τουαλέτα (δείτε την ενότητα "Εργασία με ειδικό εργαλείο" σε αυτό το άρθρο.) Από την άλλη πλευρά, το παιδί σας μπορεί να ...

Υποδηλώνουν ότι το παιδί σας είναι έτοιμο για ασήμαντη εκπαίδευση - ανδρείκελα

Υποδηλώνουν ότι το παιδί σας είναι έτοιμο για ασήμαντη εκπαίδευση - ανδρείκελα

Την ημέρα που κάθε γονιός επιθυμεί, αλλά δεν μπορείτε να βιάσετε τη διαδικασία. Περιμένετε τα σημάδια ότι το παιδί σας είναι έτοιμο να αντιμετωπίσει αυτή τη μεγάλη πρόκληση. Παρακολουθήστε τα σημεία στην παρακάτω λίστα. οι πρώτες πέντε είναι απολύτως απαραίτητες: μένει ξηρό τουλάχιστον δύο ώρες παίρνει Bummed από υγρό ή ...

Η επιλογή των συντακτών

Πώς να χρησιμοποιήσετε τη φαντασία σας για να χαλαρώσετε το σώμα σας για διαλογισμό - Dummies

Πώς να χρησιμοποιήσετε τη φαντασία σας για να χαλαρώσετε το σώμα σας για διαλογισμό - Dummies

Αναδυόμενο πεδίο της ιατρικής μυαλού-σώματος υπενθυμίζει στους ανθρώπους - και γιόγκι και σοφοί έχουν πει για χιλιετίες - το σώμα σας, το μυαλό σας και η καρδιά σας αποτελούν ένα ενιαίο και αδιάσπαστο σύνολο. Όταν οι σκέψεις σας συνεχίζουν να σφύζουν από την ανησυχία σας, το σώμα σας αποκρίνεται με τη σύσφιξη και την τάνυση, ειδικά σε ορισμένες σημαντικές θέσεις ...

Πώς να χρησιμοποιήσετε την προσοχή για τη διαχείριση του πόνου

Πώς να χρησιμοποιήσετε την προσοχή για τη διαχείριση του πόνου

Πόνος είναι κάτι που θα αντιμετωπίσει κάποιος σε κάποιο σημείο . Η προσοχή μπορεί να σας βοηθήσει να προσεγγίσετε πόνο με υγιεινό τρόπο. Ο οξύς πόνος είναι ένας αιχμηρός πόνος που διαρκεί για μικρό χρονικό διάστημα, μερικές φορές ορίζεται ως λιγότερο από 12 εβδομάδες. Η ιατρική είναι αρκετά καλή για τη θεραπεία του οξέος πόνου. Ο χρόνιος πόνος είναι ο πόνος που διαρκεί ...

Βελτίωση των σχέσεών σας - ανδρείκεS

Βελτίωση των σχέσεών σας - ανδρείκεS

Σχέσεις - είτε με την οικογένεια, τους φίλους ή τους εραστές; Και δεν έχει σημασία πόσο χαρούμενος και ευχαριστημένος είστε με τις σημαντικές σχέσεις στη ζωή σας, υπάρχει πάντα περιθώριο βελτίωσης. Οι σχέσεις, όπως όλες οι διεργασίες, επίσης καταλήγουν και ρέουν και σας παρουσιάζουν προκλήσεις. Εδώ είναι μερικές εξαιρετικές τεχνικές για να σας βοηθήσουμε ...