Βίντεο: hadoop yarn architecture 2024
Το MapReduce είναι ένα παράδειγμα προγραμματισμού που σχεδιάστηκε για να επιτρέπει παράλληλη κατανεμημένη επεξεργασία μεγάλων συνόλων μετατρέποντάς τα σε σύνολα πλειάδων, και στη συνέχεια συνδυάζοντας και μειώνοντας αυτές τις πλειάδες σε μικρότερα σύνολα πλειάδων. Σύμφωνα με τους απλούς όρους, το MapReduce σχεδιάστηκε για να λαμβάνει μεγάλα δεδομένα και να χρησιμοποιεί παράλληλα κατανεμημένα υπολογιστικά συστήματα για να μετατρέπει τα μεγάλα δεδομένα σε δεδομένα μικρού ή κανονικού μεγέθους.
Η παράλληλη κατανεμημένη επεξεργασία αναφέρεται σε ένα ισχυρό πλαίσιο όπου οι μαζικοί όγκοι δεδομένων επεξεργάζονται πολύ γρήγορα διανέμοντας εργασίες επεξεργασίας μέσω συμπλεγμάτων διακομιστών βασικών προϊόντων. Όσον αφορά το MapReduce, οι πλειάδες αναφέρονται σε ζεύγη κλειδιών-τιμών, με τα οποία τα δεδομένα ομαδοποιούνται, ταξινομούνται και υποβάλλονται σε επεξεργασία.
Οι εργασίες MapReduce λειτουργούν μέσω χάρτη και μειώνουν τις ακολουθίες λειτουργιών διεργασίας σε ένα διανεμημένο σύνολο διακομιστών. Στην εργασία χαρτών , μεταβιβάζετε τα δεδομένα σας σε ζεύγη κλειδιών-τιμών, μετατρέπετε και φιλτράρετε. Στη συνέχεια, αντιστοιχίζετε τα δεδομένα στους κόμβους για επεξεργασία.
Στην ενέργεια μειώστε την εργασία , συγκεντρώνετε αυτά τα δεδομένα σε σύνολα δεδομένων μικρότερου μεγέθους. Τα δεδομένα από το βήμα μείωσης μετατρέπονται σε μια τυπική μορφή - όπου το πλήκτρο λειτουργεί ως αναγνωριστικό εγγραφής και η τιμή είναι η τιμή που προσδιορίζεται από το κλειδί. Οι κόμβοι υπολογιστών των συμπλεγμάτων επεξεργάζονται τον χάρτη και μειώνουν τις εργασίες που ορίζονται από τον χρήστη. Αυτή η εργασία γίνεται σύμφωνα με τα ακόλουθα δύο βήματα:
-
Χάρτης των δεδομένων.
Τα εισερχόμενα δεδομένα πρέπει πρώτα να μεταβιβαστούν σε ζεύγη κλειδιών-τιμών και να χωριστούν σε θραύσματα, τα οποία στη συνέχεια αντιστοιχίζονται σε εργασίες χαρτών. Κάθε cluster υπολογιστών - μια ομάδα κόμβων που συνδέονται μεταξύ τους και εκτελούν μια κοινή εργασία πληροφορικής - αποδίδεται μια σειρά εργασιών χαρτών, οι οποίες στη συνέχεια κατανέμονται μεταξύ των κόμβων της.
Κατά την επεξεργασία των ζευγών κλειδιού-τιμής, παράγονται ενδιάμεσα ζεύγη κλειδιών-τιμών. Τα ενδιάμεσα ζεύγη κλειδιών-τιμών ταξινομούνται με βάση τις τιμές κλειδιού τους και αυτή η λίστα διαιρείται σε ένα νέο σύνολο θραυσμάτων. Όποια και αν είναι η μέτρηση που έχετε για αυτά τα νέα θραύσματα, θα είναι η ίδια με την καταμέτρηση των μειωμένων εργασιών.
-
Μειώστε τα δεδομένα.
Κάθε εργασία μείωσης έχει ένα κομμάτι που έχει οριστεί σε αυτήν. Η εργασία μειώσεως επεξεργάζεται απλά το θραύσμα και παράγει μια έξοδο, η οποία είναι επίσης ένα ζεύγος κλειδιού-τιμής. Η μείωση των εργασιών κατανέμεται επίσης μεταξύ των διαφόρων κόμβων του συμπλέγματος. Μετά την ολοκλήρωση της εργασίας, η τελική έξοδος εγγράφεται σε ένα σύστημα αρχείων.
Με λίγα λόγια, μπορείτε να βράσετε γρήγορα και αποτελεσματικά και να αρχίσετε να έχετε νόημα για έναν τεράστιο όγκο, ταχύτητα και ποικιλία δεδομένων χρησιμοποιώντας χάρτη και να μειώσετε τις εργασίες για να προσθέσετε ετικέτα στα δεδομένα σας (ζεύγη κλειδιών, τιμών) και στη συνέχεια να μειώσετε αυτά τα ζεύγη σε μικρότερα σύνολα δεδομένων μέσω πράξεων συσσωμάτωσης - λειτουργίες που συνδυάζουν πολλαπλές τιμές από ένα σύνολο δεδομένων σε μία μόνο τιμή.Ένα διάγραμμα της αρχιτεκτονικής MapReduce μπορεί να βρεθεί εδώ.
Εάν τα δεδομένα σας δεν προσφέρονται για tagging και επεξεργασία μέσω κλειδιών, τιμών και συνάθροισης, τότε χαρτογράφηση και μείωση εν γένει δεν είναι κατάλληλη για τις ανάγκες σας.
Εάν χρησιμοποιείτε το MapReduce ως μέρος μιας λύσης Hadoop, τότε η τελική έξοδος εγγράφεται στο Hadoop Distributed File System (HDFS). Το HDFS είναι ένα σύστημα αρχείων που περιλαμβάνει συμπλέγματα διακομιστών βασικών προϊόντων που χρησιμοποιούνται για την αποθήκευση μεγάλων δεδομένων. Το HDFS καθιστά οικονομικά εφικτό τον μεγάλο χειρισμό δεδομένων και την αποθήκευση, μέσω της - κατανομής των εργασιών αποθήκευσης σε ομάδες συμπυκνωμένων διακομιστών βασικών προϊόντων.