Βίντεο: Sqoop Import and Export data from RDMBS and HDFS 2025
Για το μεγαλύτερο μέρος της ιστορίας του Hadoop, το MapReduce είναι το μοναδικό παιχνίδι στην πόλη όταν πρόκειται για την επεξεργασία δεδομένων. Η διαθεσιμότητα του MapReduce υπήρξε ο λόγος για την επιτυχία του Hadoop και παράλληλα ένας σημαντικός παράγοντας για τον περιορισμό της περαιτέρω υιοθέτησης.
Το MapReduce επιτρέπει στους ειδικευμένους προγραμματιστές να γράφουν κατανεμημένες εφαρμογές χωρίς να χρειάζεται να ανησυχούν για την υποκείμενη κατανεμημένη υποδομή υπολογιστών. Αυτή είναι μια πολύ μεγάλη υπόθεση: ο Hadoop και το πλαίσιο MapReduce χειρίζονται όλα τα είδη πολυπλοκότητας που οι προγραμματιστές εφαρμογών δεν χρειάζεται να χειριστούν.
Για παράδειγμα, η δυνατότητα διαφάνειας του cluster με την προσθήκη κόμβων και η αυτόματη αποτυχία των υποσυστημάτων αποθήκευσης δεδομένων και επεξεργασίας δεδομένων συμβαίνουν με μηδενικό αντίκτυπο στις εφαρμογές.
Η άλλη πλευρά του νομίσματος εδώ είναι ότι αν και το MapReduce κρύβει μια τεράστια πολυπλοκότητα, δεν μπορείτε να αντέξετε οικονομικά να ξεχάσετε τι είναι: μια διεπαφή για παράλληλο προγραμματισμό. Πρόκειται για μια προηγμένη ικανότητα - και ένα εμπόδιο στην ευρύτερη υιοθέτηση. Απλά δεν υπάρχουν ακόμη πολλοί προγραμματιστές MapReduce, και δεν έχουν όλοι την ικανότητα να την κυριαρχήσουν.
Στις πρώτες μέρες του Hadoop (Hadoop 1 και πριν), θα μπορούσατε να εκτελέσετε μόνο εφαρμογές MapReduce στα clusters σας. Στο Hadoop 2, η συνιστώσα YARN άλλαξε όλα αυτά με την ανάληψη διαχείρισης πόρων και προγραμματισμού από το πλαίσιο MapReduce και την παροχή μιας γενικής διεπαφής για να διευκολύνει τις εφαρμογές να τρέχουν σε ένα cluster Hadoop.
Με λίγα λόγια, αυτό σημαίνει ότι το MapReduce είναι τώρα ένα από τα πολλά πλαίσια εφαρμογής που μπορείτε να χρησιμοποιήσετε για να αναπτύξετε και να εκτελέσετε εφαρμογές στον Hadoop. Αν και είναι σίγουρα δυνατή η εκτέλεση εφαρμογών χρησιμοποιώντας άλλα πλαίσια στο Hadoop, αυτό δεν σημαίνει ότι μπορούμε να αρχίσουμε να ξεχνάμε το MapReduce.
Το MapReduce είναι σήμερα το μόνο διαθέσιμο πλαίσιο επεξεργασίας δεδομένων για την Hadoop. Αν και άλλα πλαίσια θα είναι τελικά διαθέσιμα, το MapReduce έχει σχεδόν δεκαετία ωριμότητας κάτω από τη ζώνη του (με σχεδόν 4 000 θέματα JIRA ολοκληρωμένα, που περιλαμβάνουν εκατοντάδες προγραμματιστές, αν παρακολουθείτε).
Δεν υπάρχει αμφιβολία: Το MapReduce είναι το πιο ώριμο πλαίσιο του Hadoop για την επεξεργασία δεδομένων. Επιπλέον, ένα σημαντικό ποσό του κώδικα MapReduce είναι τώρα σε χρήση που είναι απίθανο να πάει οπουδήποτε σύντομα. Μακρά σύντομη ιστορία: Το MapReduce είναι ένα σημαντικό κομμάτι της ιστορίας του Hadoop.
Τα προγράμματα Apache Hive και Apache Pig είναι ιδιαίτερα δημοφιλή επειδή είναι ευκολότερα σημεία εισόδου για την επεξεργασία δεδομένων στο Hadoop. Για πολλά προβλήματα, ειδικά τα είδη που μπορείτε να λύσετε με SQL, Hive και Pig είναι εξαιρετικά εργαλεία.Αλλά για μια εργασία ευρύτερης εμβέλειας, όπως στατιστική επεξεργασία ή εξαγωγή κειμένου, και ειδικά για επεξεργασία μη δομημένων δεδομένων, πρέπει να χρησιμοποιήσετε το MapReduce.
