Σπίτι Προσωπικά Οικονομικά Εισαγωγή Αποκλεισμός σε Mapredduce του Hadoop - dummies

Εισαγωγή Αποκλεισμός σε Mapredduce του Hadoop - dummies

Βίντεο: Word 2010 - Εσοχές παραγράφων 2025

Βίντεο: Word 2010 - Εσοχές παραγράφων 2025
Anonim

Ο τρόπος που έχει ρυθμιστεί το HDFS, καταστρέφει τα πολύ μεγάλα αρχεία σε μεγάλα μπλοκ (για παράδειγμα, και αποθηκεύει τρία αντίγραφα αυτών των μπλοκ σε διαφορετικούς κόμβους του συμπλέγματος.Η HDFS δεν έχει επίγνωση του περιεχομένου αυτών των αρχείων

Στο YARN, όταν ξεκινά μια εργασία MapReduce, ο Διαχειριστής Πόρων (διαχείριση πόρων πόρων και προγραμματισμός εργασιών) δημιουργεί ένα δαίμονα Master Application για να μεριμνήσει για τον κύκλο ζωής της εργασίας. (Στο Hadoop 1, το JobTracker παρακολούθησε μεμονωμένες εργασίες καθώς και χειρισμό προγραμματισμού εργασιών και διαχείρισης πόρων cluster.)

> Ένα από τα πρώτα πράγματα που κάνει το Application Master είναι να καθορίσει ποια τμήματα αρχείων χρειάζονται για επεξεργασία.Το Master Application απαιτεί λεπτομέρειες από το όνομαNode όπου αποθηκεύονται τα αντίγραφα των απαραίτητων μπλοκ δεδομένων. Ο υπεύθυνος εφαρμογής υποβάλλει αιτήσεις στον πόρο Διαχειριστής για να εκτελέσει εργασίες χαρτογράφησης συγκεκριμένων μπλοκ στους κόμβους σκλάβων όπου είναι αποθηκευμένοι.

τοπικά

στον κόμβο υποτελούς όπου είναι αποθηκευμένα. Πριν εξετάσετε πώς επεξεργάζονται τα μπλοκ δεδομένων, θα πρέπει να εξετάσετε προσεκτικότερα τον τρόπο αποθήκευσης των δεδομένων από τον Hadoop. Στο Hadoop, τα αρχεία αποτελούνται από μεμονωμένα αρχεία, τα οποία τελικά επεξεργάζονται ένα προς ένα από τις εργασίες χαρτογράφησης. Για παράδειγμα, το δείγμα δεδομένων περιέχει πληροφορίες σχετικά με τις ολοκληρωμένες πτήσεις εντός των Ηνωμένων Πολιτειών μεταξύ 1987 και 2008.

Για να κάνετε λήψη του δείγματος δεδομένων, ανοίξτε το πρόγραμμα περιήγησης Firefox μέσα από το VM και μεταβείτε στη σελίδα dataexpo.

Έχετε ένα μεγάλο αρχείο για κάθε έτος, και μέσα σε κάθε αρχείο, κάθε μεμονωμένη γραμμή αντιπροσωπεύει μια μόνο πτήση. Με άλλα λόγια, μία γραμμή αντιπροσωπεύει ένα αρχείο. Τώρα, να θυμάστε ότι το μέγεθος μπλοκ για το σύμπλεγμα Hadoop είναι 64MB, πράγμα που σημαίνει ότι τα αρχεία δεδομένων φωτός χωρίζονται σε κομμάτια ακριβώς 64MB.

Βλέπετε το πρόβλημα; Εάν κάθε εργασία χαρτών επεξεργάζεται όλες τις εγγραφές σε ένα συγκεκριμένο μπλοκ δεδομένων, τι συμβαίνει σε αυτές τις εγγραφές που καλύπτουν τα όρια; Τα μπλοκ αρχείων είναι ακριβώς 64MB (ή ό, τι ρυθμίζετε το μέγεθος του μπλοκ) και επειδή το HDFS δεν έχει αντίληψη για τα περιεχόμενα των μπλοκ αρχείων, δεν μπορεί να μετρήσει όταν ένα αρχείο μπορεί να μεταφερθεί σε άλλο μπλοκ.

Για την επίλυση αυτού του προβλήματος, ο Hadoop χρησιμοποιεί μια λογική αναπαράσταση των δεδομένων που είναι αποθηκευμένα σε μπλοκ αρχείων, γνωστά ως

σχισμές εισόδου

. Όταν ένας πελάτης εργασίας MapReduce υπολογίζει τις διαφορές εισόδου, υπολογίζει πού αρχίζει η πρώτη ολόκληρη εγγραφή σε ένα μπλοκ και πού τελειώνει η τελευταία εγγραφή στο μπλοκ. Σε περιπτώσεις όπου η τελευταία εγγραφή σε ένα μπλοκ είναι ατελής, ο διαχωρισμός εισόδου περιλαμβάνει πληροφορίες θέσης για το επόμενο μπλοκ και την απόκλιση byte των δεδομένων που απαιτούνται για την ολοκλήρωση της εγγραφής. Το σχήμα δείχνει αυτή τη σχέση μεταξύ των μπλοκ δεδομένων και των χωρισμάτων εισόδου.

Μπορείτε να διαμορφώσετε τον δαίμονα Application Master (ή το JobTracker, εάν βρίσκεστε στο Hadoop 1) για να υπολογίσετε τις χωρίσεις εισόδου αντί του πελάτη εργασίας, κάτι που θα ήταν πιο γρήγορο για εργασίες που επεξεργάζονται μεγάλο αριθμό μπλοκ δεδομένων.

Η επεξεργασία δεδομένων MapReduce οδηγείται από αυτή την έννοια των διαφορών εισόδου. Ο αριθμός των διαχωρισμών εισόδου που υπολογίζονται για μια συγκεκριμένη εφαρμογή καθορίζει τον αριθμό των εργασιών χαρτογράφησης. Κάθε μία από αυτές τις εργασίες χαρτογράφησης αντιστοιχεί, όπου είναι δυνατόν, σε έναν κόμβο υποτελούς λειτουργίας στον οποίο αποθηκεύεται ο διαχωρισμός εισόδου. Ο Διαχειριστής Πόρων (ή το JobTracker, αν βρίσκεστε στο Hadoop 1) προσπαθεί να διασφαλίσει ότι οι διαχωρίσεις εισερχόμενων δεδομένων θα υποστούν επεξεργασία τοπικά.

Εισαγωγή Αποκλεισμός σε Mapredduce του Hadoop - dummies

Η επιλογή των συντακτών

Δημιουργήστε ευχετήριες κάρτες στο Microsoft Word 2003 - ανδρείκελα

Δημιουργήστε ευχετήριες κάρτες στο Microsoft Word 2003 - ανδρείκελα

Αν θέλετε να δημιουργήσετε κάτι στο Word που θα απλώς θαμπώνει κάποιος, δοκιμάστε το χέρι σας σε προσαρμοσμένες ευχετήριες κάρτες. Για να ρυθμίσετε το Word για να δημιουργήσετε μια ευχετήρια κάρτα από ένα απλό φύλλο χαρτιού κανονικού μεγέθους γραμματοσειράς, ακολουθήστε τα εξής βήματα: 1. Επιλέξτε Αρχείο -> Ρύθμιση σελίδας. 2. Κάντε κλικ στην καρτέλα Περιθώρια. 3. Επιλέξτε το τοπίο ...

Δημιουργώντας ένα ευρετήριο ενός εγγράφου του Word 2007 - dummies

Δημιουργώντας ένα ευρετήριο ενός εγγράφου του Word 2007 - dummies

Αν θέλετε να δημιουργήσετε ένα ευρετήριο για το Word 2007, η πρώτη εργασία είναι να επισημάνετε τις λέξεις ή τις φράσεις που θέλετε να συμπεριλάβετε στο ευρετήριο. Ο πιο συνηθισμένος τρόπος για να γίνει αυτό είναι να εισαγάγετε ένα δείκτη ευρετηρίου στο έγγραφο σε κάθε εμφάνιση κάθε στοιχείου που θέλετε να εμφανίζεται ...

Στο Word 2007: Παρακολούθηση αλλαγών και ανασκόπησης - ανδρείκελα

Στο Word 2007: Παρακολούθηση αλλαγών και ανασκόπησης - ανδρείκελα

, μέχρι να εμφανιστούν οι συντάκτες. Θα κάνουν αναθεωρήσεις προσθέτοντας στο προσεκτικά γραπτό σας έργο, μετακινώντας τα πράγματα γύρω, και διαγράφοντας το κείμενο (Ouch!). Δεν υπάρχει τρόπος να προσδιορίσετε το αρχικό κείμενο από το τροποποιημένο κείμενο - εκτός αν χρησιμοποιείτε το εργαλείο παρακολούθησης αλλαγών του Word 2007. Παρακολούθηση αλλαγών ως ...

Η επιλογή των συντακτών

Για να κλειδώσετε τις ρυθμίσεις αυτόματης έκθεσης σε ετικέτες Canon EOS 60D

Για να κλειδώσετε τις ρυθμίσεις αυτόματης έκθεσης σε ετικέτες Canon EOS 60D

, το Canon EOS 60D σας μετρά συνεχώς το φως μέχρι τη στιγμή που πιέζετε πλήρως το πλήκτρο κλείστρου για να τραβήξετε την εικόνα. Στις λειτουργίες αυτόματης έκθεσης (δηλαδή, οποιαδήποτε λειτουργία, αλλά B και M), διατηρεί επίσης τις ρυθμίσεις έκθεσης ανάλογα με τις ανάγκες. Για τις περισσότερες περιπτώσεις, η προσέγγιση αυτή λειτουργεί πολύ, με αποτέλεσμα ...

Πώς να μεταβείτε στις εικόνες στο Rebel t5i - ανδρείκελα

Πώς να μεταβείτε στις εικόνες στο Rebel t5i - ανδρείκελα

Εάν η κάρτα μνήμης στο Canon Rebel Το t5i περιέχει scads αρχείων, εδώ είναι ένα τέχνασμα που θα σας αρέσει: Χρησιμοποιώντας τη λειτουργία Jump, μπορείτε να περιστρέψετε τον κύριο επιλογέα για να περάσετε μέσα από αυτές, αντί να κάνετε κύλιση μέσω αυτών μία προς μία για να φτάσετε στο αρχείο που θέλετε να δείτε. Μπορείτε επίσης να αναζητήσετε ...

Η επιλογή των συντακτών

Πώς να ρυθμίσετε τους τόνους του δέρματος σε εικόνες στο Photoshop Elements 9 - ανδρείκελα

Πώς να ρυθμίσετε τους τόνους του δέρματος σε εικόνες στο Photoshop Elements 9 - ανδρείκελα

Εντολή ειδικά σχεδιασμένη για να προσαρμόζει το συνολικό χρώμα σε μια εικόνα για να ρυθμίσει τους τόνους του δέρματος σε μια φυσική απόχρωση. Αυτή η εντολή είναι χρήσιμη αν διαπιστώσετε ότι οι αγαπημένοι σας στις φωτογραφίες σας έχουν πάρει μια μάλλον ασθενική σκιά πράσινου, κόκκινου ή κάποιου άλλου τόνου που δεν είναι σάρκας.

Πώς να ρυθμίζετε τη φωτεινότητα και την αντίθεση στο Photoshop Elements 9 - ανδρείκελα

Πώς να ρυθμίζετε τη φωτεινότητα και την αντίθεση στο Photoshop Elements 9 - ανδρείκελα

Το Photoshop Elements δεν κάνει πάντα μια εξαιρετική δουλειά φωτισμού (κάνοντας μια εικόνα πιο σκοτεινή ή ελαφρύτερη) ή προσθέτοντας ή διαγράφοντας την αντίθεση. Το πρόβλημα με την εντολή Φωτεινότητα / Αντίθεση είναι ότι εφαρμόζει την προσαρμογή εξίσου σε όλες τις περιοχές εικόνας. Όταν χρησιμοποιείτε την εντολή Φωτεινότητα / Αντίθεση, επιλέξτε μόνο τις περιοχές που χρειάζονται τη διόρθωση. ...