Βίντεο: Hadoop Processing Frameworks 2025
Στον πυρήνα του, το MapReduce είναι ένα μοντέλο προγραμματισμού για την επεξεργασία των συνόλων δεδομένων που αποθηκεύονται κατά κατανεμημένο τρόπο στους κόμβους του κόμβου του Hadoop. Η βασική ιδέα εδώ είναι η διαίρεση και η κατάκτηση . Συγκεκριμένα, θέλετε να σπάσετε ένα μεγάλο σύνολο δεδομένων σε πολλά μικρότερα κομμάτια και να τα επεξεργαστείτε παράλληλα με τον ίδιο αλγόριθμο.
Με το σύστημα κατανομής αρχείων Hadoop (HDFS), τα αρχεία είναι ήδη χωρισμένα σε τεμάχια μεγέθους δαγκώματος. MapReduce είναι αυτό που χρησιμοποιείτε για να επεξεργαστείτε όλα τα κομμάτια.
Οι εφαρμογές MapReduce έχουν πολλαπλές φάσεις, όπως διευκρινίζονται στη λίστα αυτή:
-
Προσδιορίστε τα ακριβή σύνολα δεδομένων που θα επεξεργαστούν από τα μπλοκ δεδομένων. Αυτό περιλαμβάνει τον υπολογισμό του πού τα προς επεξεργασία αρχεία βρίσκονται μέσα στα μπλοκ δεδομένων.
-
Εκτελέστε τον καθορισμένο αλγόριθμο έναντι κάθε εγγραφής στο σύνολο δεδομένων μέχρι να επεξεργαστούν όλα τα αρχεία.
Η μεμονωμένη εμφάνιση της εφαρμογής που τρέχει σε ένα σύνολο δεδομένων σε ένα σύνολο δεδομένων είναι γνωστή ως task mapper. (Αυτό είναι το χαρτογραφικό μέρος του MapReduce.)
-
Κάντε τοπική μείωση της παραγωγής κάθε χαρτογράφου.
(Οι εκροές συνδυάζονται προσωρινά, με άλλα λόγια.) Αυτή η φάση είναι προαιρετική επειδή, σε ορισμένες κοινές περιπτώσεις, δεν είναι επιθυμητή.
-
Με βάση τις απαιτήσεις διαμοιρασμού, ομαδοποιήστε τις εφαρμοζόμενες κατατμήσεις δεδομένων από τα σύνολα αποτελεσμάτων του κάθε χάρτη χαρτογράφησης.
-
Βράστε τα σύνολα αποτελεσμάτων από τους χαρτογράφους σε ένα ενιαίο σύνολο αποτελεσμάτων - το τμήμα Μείωση του MapReduce.
Μια μεμονωμένη εμφάνιση της εφαρμογής που εκτελείται με δεδομένα εξόδου χαρτογράφου είναι γνωστή ως εργασία μειωτήρα . (Όπως είναι περίεργο, καθώς το "Μείωση" είναι μέρος του ονόματος MapReduce, αυτή η φάση μπορεί να είναι προαιρετική · οι εφαρμογές χωρίς μειωτήρα είναι γνωστές ως εργασίες μόνο για χάρτη , οι οποίες μπορεί να είναι χρήσιμες όταν δεν υπάρχει πρέπει να συνδυάσετε τα σύνολα αποτελεσμάτων από τις εργασίες χαρτών.)