Σπίτι Προσωπικά Οικονομικά Αποκλεισμός δεδομένων στο Hadoop Distributed File System (HDFS) - ανδρείκελα

Αποκλεισμός δεδομένων στο Hadoop Distributed File System (HDFS) - ανδρείκελα

Βίντεο: Week 8 2025

Βίντεο: Week 8 2025
Anonim

Όταν αποθηκεύετε ένα αρχείο σε HDFS, το σύστημα το διασπά σε ένα σύνολο μεμονωμένων μπλοκ και αποθηκεύει αυτά τα μπλοκ σε διάφορους κόμβους υποτελών στο σύμπλεγμα Hadoop. Αυτό είναι ένα εντελώς φυσιολογικό πράγμα, καθώς όλα τα συστήματα αρχείων σπάνε τα αρχεία σε μπλοκ πριν τα αποθηκεύσουν στο δίσκο.

Το HDFS δεν έχει ιδέα (και δεν ενδιαφέρεται) τι είναι αποθηκευμένο μέσα στο αρχείο, έτσι τα ακατέργαστα αρχεία δεν χωρίζονται σύμφωνα με κανόνες που θα καταλάβαιναν οι άνθρωποι. Οι άνθρωποι, για παράδειγμα, θα ήθελαν όρια ρεκόρ - οι γραμμές που δείχνουν πού αρχίζει και τελειώνει ένα ρεκόρ - πρέπει να τηρούνται.

Το HDFS συχνά δεν γνωρίζει καλά ότι η τελική εγγραφή σε ένα μπλοκ μπορεί να είναι μόνο μερική εγγραφή, με το υπόλοιπο περιεχόμενο να απομακρύνεται στο επόμενο μπλοκ. Το HDFS θέλει μόνο να βεβαιωθεί ότι τα αρχεία χωρίζονται σε μπλοκ με ομοιόμορφο μέγεθος που ταιριάζουν με το προκαθορισμένο μέγεθος μπλοκ για την περίπτωση Hadoop (εκτός αν έχει εισαχθεί προσαρμοσμένη τιμή για το αρχείο που αποθηκεύεται). Στο προηγούμενο σχήμα, το μέγεθος του μπλοκ είναι 128MB.

Δεν είναι όλα τα αρχεία που χρειάζεστε να αποθηκεύσετε είναι ένα ακριβές πολλαπλάσιο του μεγέθους του μπλοκ του συστήματός σας, οπότε το μπλοκ τελικών δεδομένων για ένα αρχείο χρησιμοποιεί μόνο τον απαιτούμενο χώρο. Στην περίπτωση του προηγούμενου σχήματος, το τελικό σύνολο δεδομένων είναι 1MB.

Η ιδέα της αποθήκευσης ενός αρχείου ως συλλογής μπλοκ είναι απόλυτα συνεπής με τον τρόπο λειτουργίας των συστημάτων αρχείων. Αλλά τι είναι διαφορετικό για το HDFS είναι η κλίμακα. Ένα τυπικό μέγεθος μπλοκ που θα βλέπατε σε ένα σύστημα αρχείων κάτω από το Linux είναι 4KB, ενώ ένα τυπικό μέγεθος μπλοκ στο Hadoop είναι 128MB. Αυτή η τιμή είναι διαμορφώσιμη και μπορεί να προσαρμοστεί, τόσο ως προεπιλογή νέου συστήματος όσο και ως προσαρμοσμένη τιμή για μεμονωμένα αρχεία.

Hadoop σχεδιάστηκε για την αποθήκευση δεδομένων στην κλίμακα petabyte, όπου ελαχιστοποιούνται οι δυνητικοί περιορισμοί στην κλιμάκωση. Το μεγάλο μέγεθος μπλοκ είναι άμεση συνέπεια αυτής της ανάγκης αποθήκευσης δεδομένων σε τεράστια κλίμακα.

Πρώτα απ 'όλα, κάθε μπλοκ δεδομένων αποθηκευμένο σε HDFS έχει τα δικά του μεταδεδομένα και πρέπει να παρακολουθείται από κεντρικό εξυπηρετητή, έτσι ώστε οι εφαρμογές που χρειάζονται πρόσβαση σε ένα συγκεκριμένο αρχείο να μπορούν να κατευθύνονται σε ό, τι αποθηκεύονται όλα τα μπλοκ του αρχείου. Εάν το μέγεθος του μπλοκ ήταν στην περιοχή kilobyte, ακόμη και μέτριες ποσότητες δεδομένων στην κλίμακα terabyte θα υπερκεράσουν το διακομιστή μεταδεδομένων με πάρα πολλά μπλοκ για παρακολούθηση.

Δεύτερον, το HDFS έχει σχεδιαστεί για να επιτρέπει υψηλή απόδοση, έτσι ώστε η παράλληλη επεξεργασία αυτών των μεγάλων συνόλων δεδομένων να γίνεται όσο το δυνατόν πιο γρήγορα. Το κλειδί της επεκτασιμότητας του Hadoop στην πλευρά επεξεργασίας δεδομένων είναι, και πάντα θα είναι, παραλληλισμός - η δυνατότητα επεξεργασίας των μεμονωμένων μπλοκ αυτών των μεγάλων αρχείων παράλληλα.

Για να καταστεί δυνατή η αποτελεσματική επεξεργασία, πρέπει να επιτευχθεί ισορροπία. Από τη μια πλευρά, το μέγεθος του μπλοκ πρέπει να είναι αρκετά μεγάλο ώστε να δικαιολογεί τους πόρους που είναι αφιερωμένοι σε μια μεμονωμένη μονάδα επεξεργασίας δεδομένων (για παράδειγμα, ένας χάρτης ή μια εργασία μείωσης). Από την άλλη πλευρά, το μέγεθος του μπλοκ δεν μπορεί να είναι τόσο μεγάλο που το σύστημα περιμένει πολύ μεγάλο χρονικό διάστημα για μια τελευταία μονάδα επεξεργασίας δεδομένων για να ολοκληρώσει τη δουλειά του.

Αυτές οι δύο σκέψεις εξαρτώνται προφανώς από τα είδη των εργασιών που γίνονται στα μπλοκ δεδομένων.

Αποκλεισμός δεδομένων στο Hadoop Distributed File System (HDFS) - ανδρείκελα

Η επιλογή των συντακτών

Πώς η εταιρεία των αισιόδοξων μπορεί να μειώσει τον θυμό σας - Dummies

Πώς η εταιρεία των αισιόδοξων μπορεί να μειώσει τον θυμό σας - Dummies

Υπάρχει άμεσος σύνδεσμος τη στάση σας για τη ζωή και τη διάθεσή σας. Οι αισιόδοξοι τείνουν να είναι πιο θετικοί και λιγότερο επιρρεπείς στην οργή από τους απαισιόδοξους. Οι απαισιόδοξοι περιμένουν πάντα τα πράγματα να μην αποδειχθούν καλά και ως εκ τούτου είναι πιο ικανά να βρεθούν ανήσυχοι, ανησυχούν και έτοιμοι να θυμούνται όταν τους ...

Γλωσσάριο όρων που σχετίζονται με τη διπολική

Γλωσσάριο όρων που σχετίζονται με τη διπολική

Οξεία: Σχετικά σύντομη αλλά σοβαρή, όπως σε επεισόδιο οξείας διάθεσης. Συμπληρωματικό στην κύρια θεραπεία. συναισθηματική διαταραχή: Μια κατηγορία ψυχιατρικών διαταραχών που περιλαμβάνει κατάθλιψη, διπολική διαταραχή και εποχιακή συναισθηματική διαταραχή (SAD). Η επίδραση είναι ένας ιατρικός όρος για τη διάθεση. ακάθεια: Σοβαρή ανησυχία, πιθανή παρενέργεια ορισμένων φαρμάκων, ειδικά μερικών αντιψυχωσικών. αντισπασμωδικό: ...

Πώς να χρησιμοποιήσετε το γέλιο για να μειώσετε την ευαισθησία σας στο θυμό

Πώς να χρησιμοποιήσετε το γέλιο για να μειώσετε την ευαισθησία σας στο θυμό

Γέλιο είναι (κυριολεκτικά) παυσίπονο. Μπορεί να σκοτώσει τόσο τον σωματικό όσο και τον συναισθηματικό πόνο, μειώνοντας την πιθανότητα ότι ορισμένες καταστάσεις θα σας προκαλέσουν θυμό. Μελέτες που συνέκριναν κάποιο είδος ουδέτερης απόσπασης της προσοχής, χαλάρωσης και γέλιου, έδειξαν ότι το γέλιο είναι πιο αποτελεσματικό στην αύξηση του ορίου πόνου ενός ατόμου. Κατώτατη γραμμή: Το γέλιο μειώνει την ευαισθησία στον πόνο. Το ίδιο ισχύει ...

Η επιλογή των συντακτών

Δημιουργώντας μια αναφορά σύνολου σεναρίου στο Excel 2007

Δημιουργώντας μια αναφορά σύνολου σεναρίου στο Excel 2007

Μετά τη χρήση του σεναρίου διαχείρισης για να προσθέσετε σεναρίων σε έναν πίνακα σε ένα φύλλο εργασίας, μπορείτε να έχετε στο Excel 2007 μια συνοπτική αναφορά. Αυτή η αναφορά εμφανίζει τις μεταβαλλόμενες και τις προκύπτουσες τιμές όχι μόνο για όλα τα σενάρια που έχετε ορίσει, αλλά και τις τρέχουσες τιμές που εισάγονται στα μεταβαλλόμενα κελιά στον πίνακα φύλλου εργασίας ...

Δημιουργία προσαρμοσμένων αυτόματων φίλτρων για αριθμούς στο Excel 2007 - dummies

Δημιουργία προσαρμοσμένων αυτόματων φίλτρων για αριθμούς στο Excel 2007 - dummies

Εντοπίστε αρχεία που είτε ταιριάζουν με όλα τα κριτήρια είτε ικανοποιούν ένα ή τα άλλα κριτήρια. Μπορείτε να χρησιμοποιήσετε αυτήν τη μέθοδο όταν θέλετε να φιλτράρετε δεδομένα με βάση ένα εύρος τιμών (για παράδειγμα, μπορείτε να φιλτράρετε τιμές που είναι μεγαλύτερες ή ίσες με ...

Δημιουργία προσαρμοσμένων αυτόματων φίλτρων για κείμενο σε Excel 2007 - ανδρείκελα

Δημιουργία προσαρμοσμένων αυτόματων φίλτρων για κείμενο σε Excel 2007 - ανδρείκελα

Χρησιμοποιήστε το παράθυρο διαλόγου Custom Autofilter στο Excel 2007 εντοπίστε αρχεία που είτε ταιριάζουν με όλα τα κριτήρια είτε ικανοποιούν ένα ή τα άλλα κριτήρια. Μπορείτε να χρησιμοποιήσετε αυτήν τη μέθοδο για περισσότερη ευελιξία κατά το φιλτράρισμα κειμένου (για παράδειγμα, τα τελευταία ονόματα που αρχίζουν με το S αντί για μια συγκεκριμένη καταχώρηση κυττάρων όπως το Smith). Excel 2007 πίνακες αυτόματα ...

Η επιλογή των συντακτών

Βασικά στοιχεία δικτύου: Εγκατάσταση και χρήση TFTP - ανδρείκελοι

Βασικά στοιχεία δικτύου: Εγκατάσταση και χρήση TFTP - ανδρείκελοι

Οι διαχειριστές δικτύου πρέπει μερικές φορές να ενημερώσουν το Internetwork Operating System (IOS) αρχείο ή υλικολογισμικό μιας συσκευής Cisco. Η χρήση ενός διακομιστή TFTP είναι ο πιο συνηθισμένος τρόπος για να φτάσετε το αρχείο στη συσκευή δικτύου. Η Cisco χρησιμοποίησε για να παρέχει έναν δωρεάν διακομιστή TFTP που θα μπορούσε να κατεβάσει για να φορτώσει την εικόνα μέσω του διακομιστή, αλλά ...

Ανοιχτό πρωτόκολλο δρομολόγησης πιο σύντομης διαδρομής (OSPF) - ανδρείκελο

Ανοιχτό πρωτόκολλο δρομολόγησης πιο σύντομης διαδρομής (OSPF) - ανδρείκελο

Ένα πρωτόκολλο δρομολόγησης σύνδεσης-κατάστασης, παρά ένα πρωτόκολλο διάνυσμα εξ αποστάσεως. Η κύρια διαφορά εδώ είναι ότι ένα πρωτόκολλο συνδεδεμένης κατάστασης δεν στέλνει τον πίνακα δρομολόγησης με τη μορφή ενημερώσεων, αλλά μοιράζεται μόνο τη διαμόρφωση σύνδεσης. Μέσω της συλλογής πληροφοριών συνδεσιμότητας από όλες τις συσκευές στο δίκτυο, το OSPF ...

Πλεονεκτήματα και μειονεκτήματα της στατικής δρομολόγησης - ανδρείκελα

Πλεονεκτήματα και μειονεκτήματα της στατικής δρομολόγησης - ανδρείκελα

Διεπαφές πρωτόκολλων δρομολόγησης μπορούν να ανατεθούν δυναμικά ή στατικά. Η στατική δρομολόγηση δικτύου έχει πλεονεκτήματα και μειονεκτήματα σε σύγκριση με την εφαρμογή δυναμικών πρωτοκόλλων δρομολόγησης. Από την πλευρά των οφελών, έχετε τα εξής: Προβλεψιμότητα: Εάν αλλάξετε το σχεδιασμό και τη διάταξη του δικτύου σας και υποστείτε αποτυχία συσκευής, οι στατικές διαδρομές δεν αλλάζουν. Πάντα γνωρίζετε ...