Που εκτελούνται Εφαρμογές Πριν από Hadoop 2 - dummies

Βίντεο: How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox 2024

Επειδή πολλές υπάρχουσες αναπτύξεις του Hadoop δεν χρησιμοποιούν ακόμα ακόμα έναν άλλο διαμεσολαβητή πόρων (YARN), ρίξτε μια ματιά στο πώς ο Hadoop διαχειριζόταν την επεξεργασία δεδομένων πριν από τις ημέρες του Hadoop 2. Επικεντρωθείτε στο ρόλο που διαδραμάτισαν οι κύριοι δαίμονες του JobTracker και οι δαίμονες slave του TaskTracker όταν χειρίζονται την επεξεργασία MapReduce.

Το όλο θέμα της χρήσης κατανεμημένων συστημάτων είναι να μπορούν να αναπτύξουν υπολογιστικούς πόρους σε ένα δίκτυο αυτοτελών υπολογιστών κατά τρόπο που να είναι ανεκτικός σε λάθη, εύκολος και φθηνός.

Σε ένα κατανεμημένο σύστημα όπως το Hadoop, όπου υπάρχει ένα σύμπλεγμα αυτοτελών υπολογιστικών κόμβων που δουλεύουν παράλληλα, υπάρχει μεγάλη πολυπλοκότητα για να εξασφαλιστεί ότι όλα τα κομμάτια συνεργάζονται. Ως τέτοια, αυτά τα συστήματα τυπικά έχουν ξεχωριστά στρώματα για να χειρίζονται διαφορετικές εργασίες για να υποστηρίζουν παράλληλη επεξεργασία δεδομένων.

Αυτή η έννοια, γνωστή ως διαχωρισμός ανησυχιών , διασφαλίζει ότι αν είστε, για παράδειγμα, ο προγραμματιστής εφαρμογών, δεν χρειάζεται να ανησυχείτε για τις συγκεκριμένες λεπτομέρειες, για παράδειγμα, εργασίες χαρτών. Στο Hadoop, το σύστημα αποτελείται από αυτά τα τέσσερα διαφορετικά επίπεδα, όπως φαίνεται:

Το κατανεμημένο σύστημα αρχείων Hadoop (HDFS) είναι το επίπεδο αποθήκευσης όπου αποθηκεύονται τα σύνολα δεδομένων, ενδιάμεσων αποτελεσμάτων και τελικών αποτελεσμάτων. Διαχείριση πόρων:

Εκτός από το χώρο στο δίσκο, όλοι οι υποτελείς κόμβοι του cluster Hadoop έχουν κύκλους CPU, RAM και εύρος ζώνης δικτύου. Ένα σύστημα όπως ο Hadoop πρέπει να είναι σε θέση να κατανείμει αυτούς τους πόρους έτσι ώστε οι πολλαπλές εφαρμογές και οι χρήστες να μπορούν να μοιράζονται το σύμπλεγμα με προβλέψιμους και συντονισμένους τρόπους. Αυτή η εργασία γίνεται από το δαίμονα JobTracker.

Πλαίσιο επεξεργασίας:

Η ροή διαδικασίας MapReduce ορίζει την εκτέλεση όλων των εφαρμογών στο Hadoop 1. Αυτό αρχίζει με τη φάση του χάρτη. συνεχίζει με συσσωμάτωση με ανακατάταξη, ταξινόμηση ή συγχώνευση. και τελειώνει με τη φάση μείωσης. Στο Hadoop 1, το διαχειρίζεται επίσης ο δαίμονας JobTracker, ενώ η τοπική εκτέλεση γίνεται από δαίμονες TaskTracker που εκτελούνται στους κόμβους των σκλάβων. Διεπαφή προγραμματισμού εφαρμογών (API):

Οι εφαρμογές που αναπτύχθηκαν για το Hadoop 1 χρειάστηκε να κωδικοποιηθούν χρησιμοποιώντας το API MapReduce. Στο Hadoop 1, τα προγράμματα Hive and Pig παρέχουν στους προγραμματιστές ευκολότερες διεπαφές για τη γραφή εφαρμογών Hadoop και κάτω από την κουκούλα, ο κώδικας τους μεταγλωττίζεται στο MapReduce. Στον κόσμο του Hadoop 1 (ο οποίος ήταν ο μόνος κόσμος που είχατε μέχρι πολύ πρόσφατα), όλη η επεξεργασία δεδομένων περιστράφηκε γύρω από το MapReduce.