Σπίτι Προσωπικά Οικονομικά Πώς να χρησιμοποιήσετε MapReduce για μεγάλα δεδομένα - dummies

Πώς να χρησιμοποιήσετε MapReduce για μεγάλα δεδομένα - dummies

Πίνακας περιεχομένων:

Βίντεο: Create and Execute MapReduce in Eclipse 2025

Βίντεο: Create and Execute MapReduce in Eclipse 2025
Anonim

Το MapReduce είναι ένα λογισμικό που είναι ιδανικό για μεγάλα δεδομένα, επειδή επιτρέπει στους προγραμματιστές να γράφουν προγράμματα που μπορούν να επεξεργάζονται παράλληλα τεράστιες ποσότητες μη δομημένων δεδομένων παράλληλα σε μια κατανεμημένη ομάδα επεξεργαστών.

Η λειτουργία χάρτη για μεγάλα δεδομένα

Η λειτουργία χάρτη αποτελεί μέρος πολλών λειτουργικών γλωσσών προγραμματισμού εδώ και χρόνια. Ο χάρτης έχει αναζωογονηθεί ως βασική τεχνολογία για την επεξεργασία λιστών στοιχείων στοιχείων.

Οι χειριστές σε λειτουργικές γλώσσες δεν τροποποιούν τη δομή των δεδομένων. δημιουργούν νέες δομές δεδομένων ως αποτέλεσμα. Τα ίδια τα αρχικά δεδομένα δεν έχουν τροποποιηθεί. Έτσι, μπορείτε να χρησιμοποιήσετε τη λειτουργία χαρτών με ατιμωρησία, διότι δεν θα βλάψει τα πολύτιμα αποθηκευμένα δεδομένα σας.

Ένα άλλο πλεονέκτημα του λειτουργικού προγραμματισμού δεν είναι να χρειάζεται να διαχειρίζεται ρητά την κίνηση ή τη ροή των δεδομένων. Αυτό απαλλάσσει τον προγραμματιστή από τη ρητή διαχείριση της παραγωγής και της τοποθέτησης δεδομένων. Τέλος, δεν ορίζεται η σειρά των πράξεων στα δεδομένα.

Ένας τρόπος για να επιτευχθεί η λύση είναι να προσδιοριστούν τα δεδομένα εισόδου και να δημιουργηθεί μια λίστα:

mylist = ("όλες οι κομητείες στις ΗΠΑ που συμμετείχαν στις πιο πρόσφατες γενικές εκλογές") > Δημιουργήστε τη λειτουργία howManyPeople χρησιμοποιώντας τη λειτουργία χάρτη

. Επιλέγει μόνο τις κομητείες με περισσότερους από 50.000 ανθρώπους: map howManyPeople (mylist) = [howManyPeople "νομός 1"; howManyPeople "κομητεία 2"; howManyPeople "county 3"; howManyPeople "county 4"; …]

Δημιουργήστε τώρα έναν νέο κατάλογο εξόδου όλων των κομητειών με πληθυσμούς μεγαλύτερους από 50, 000:

(όχι, κομητεία 1, ναι, κομητεία 2, όχι, κομητεία 3, ναι, κομητεία 4, ?, κομητεία nnn)
Η λειτουργία εκτελείται χωρίς να γίνουν αλλαγές στην αρχική λίστα. Επιπλέον, μπορείτε να δείτε ότι κάθε στοιχείο της λίστας εξόδων αντιστοιχεί σε ένα αντίστοιχο στοιχείο της λίστας εισόδου, με ένα ναι ή όχι συνδεδεμένο. Αν ο νομός έχει ικανοποιήσει την απαίτηση περισσότερων από 50.000 ανθρώπων, η λειτουργία του χάρτη το αναγνωρίζει με ένα ναι. Εάν όχι, δεν δηλώνεται κανένα.

Προσθέστε τη λειτουργία μείωσης για μεγάλα δεδομένα

Όπως και η λειτουργία χαρτών, η

μείωση υπήρξε χαρακτηριστικό των λειτουργικών γλωσσών προγραμματισμού για πολλά χρόνια. Η λειτουργία "μείωση" παίρνει την έξοδο μιας λειτουργίας χάρτη και "μειώνει" τη λίστα με όποιο τρόπο θέλει ο προγραμματιστής. Το πρώτο βήμα που απαιτεί η λειτουργία μείωσης είναι η τοποθέτηση μιας τιμής σε κάτι που ονομάζεται

συσσωρευτής , ο οποίος διατηρεί μια αρχική τιμή. Αφού αποθηκεύσετε μια τιμή εκκίνησης στο συσσωρευτή, η λειτουργία μείωσης στη συνέχεια επεξεργάζεται κάθε στοιχείο της λίστας και εκτελεί τη λειτουργία που χρειάζεστε σε όλη τη λίστα.

Στο τέλος της λίστας, η συνάρτηση μειώσεως επιστρέφει μια τιμή με βάση τη λειτουργία που θέλετε να εκτελέσετε στη λίστα εξόδου.

Υποθέστε ότι πρέπει να προσδιορίσετε τις κομητείες όπου η πλειοψηφία των ψήφων ήταν για τον υποψήφιο Δημοκρατικό. Θυμηθείτε ότι η λειτουργία χαρτών howManyPeople εξέτασε κάθε στοιχείο της λίστας εισόδου και δημιούργησε έναν κατάλογο εξόδων των κομητειών με περισσότερα από 50.000 άτομα (ναι) και των κομητειών με λιγότερους από 50.000 ανθρώπους (όχι).

Αφού καλέσετε τη λειτουργία χαρτών howManyPeople, έχετε την ακόλουθη λίστα εξόδου:

(όχι, νομός 1, ναι, νομός 2, όχι, νομός 3, ναι, νομός 4;, county nnn)

Αυτή είναι τώρα η είσοδος για τη λειτουργία μείωσης. Εδώ είναι αυτό που μοιάζει με:

countylist = (όχι, νομός 1, ναι, νομός 2, όχι, νομός 3, ναι, κομητεία 4,;, νομός nnn) μείωση isDemocrat κάθε στοιχείο του καταλόγου και επιστρέφει έναν κατάλογο όλων των κομητειών με πληθυσμό μεγαλύτερο από 50.000, όπου η πλειοψηφία ψήφισε Δημοκρατικός.

Κάνοντας το μεγάλο χάρτη δεδομένων και μειώνοντας μαζί

Μερικές φορές δημιουργώντας μια λίστα εξόδου είναι αρκετή. Ομοίως, αρκετές φορές οι εργασίες σε κάθε στοιχείο μιας λίστας είναι αρκετές. Τις περισσότερες φορές, θέλετε να εξετάσετε μεγάλες ποσότητες δεδομένων εισόδου, να επιλέξετε ορισμένα στοιχεία από τα δεδομένα και στη συνέχεια να υπολογίσετε κάτι από τα σχετικά στοιχεία δεδομένων.

Δεν θέλετε να αλλάξετε αυτή τη λίστα εισόδου, ώστε να μπορείτε να τη χρησιμοποιήσετε με διαφορετικούς τρόπους με νέες υποθέσεις και νέα δεδομένα.

Οι προγραμματιστές λογισμικού σχεδιάζουν εφαρμογές που βασίζονται σε αλγόριθμους. Ένας

αλγόριθμος

δεν είναι τίποτα περισσότερο από μια σειρά βημάτων που πρέπει να εμφανιστούν στην υπηρεσία σε ένα γενικό στόχο. Μπορεί να φαίνεται λίγο σαν αυτό: Ξεκινήστε με έναν μεγάλο αριθμό ή δεδομένα ή αρχεία. Εξηγήστε τα δεδομένα.

  1. Χρησιμοποιήστε τη λειτουργία χάρτη για να εξαγάγετε κάτι που σας ενδιαφέρει και να δημιουργήσετε μια λίστα εξόδου.

  2. Οργάνωση της λίστας εξόδου για βελτιστοποίηση για περαιτέρω επεξεργασία.

  3. Χρησιμοποιήστε τη λειτουργία μείωσης για να υπολογίσετε ένα σύνολο αποτελεσμάτων.

  4. Κατασκευάστε την τελική έξοδο.

  5. Οι προγραμματιστές μπορούν να εφαρμόσουν κάθε είδους εφαρμογές χρησιμοποιώντας αυτήν την προσέγγιση, αλλά τα παραδείγματα σε αυτό το σημείο ήταν πολύ απλά, οπότε η πραγματική αξία του MapReduce μπορεί να μην είναι εμφανής. Τι συμβαίνει όταν έχετε εξαιρετικά μεγάλα δεδομένα εισόδου; Μπορείτε να χρησιμοποιήσετε τον ίδιο αλγόριθμο σε terabytes δεδομένων; Τα καλά νέα είναι ναι.

  6. Όλες οι πράξεις φαίνονται ανεξάρτητες. Αυτό συμβαίνει γιατί είναι. Η πραγματική δύναμη του MapReduce είναι η ικανότητα να διαιρείται και να κατακτάται. Πάρτε ένα πολύ μεγάλο πρόβλημα και σπάστε το σε μικρότερα, πιο διαχειρίσιμα κομμάτια, λειτουργήστε σε κάθε κομμάτι ανεξάρτητα, και στη συνέχεια τραβήξτε όλα μαζί στο τέλος. Επιπλέον, η λειτουργία χαρτών είναι μεταβλητή - με άλλα λόγια, η σειρά εκτέλεσης μιας λειτουργίας δεν έχει σημασία.

Έτσι, το MapReduce μπορεί να εκτελέσει τις εργασίες του σε διαφορετικά μηχανήματα σε ένα δίκτυο. Μπορεί επίσης να αντλεί από πολλαπλές πηγές δεδομένων, εσωτερικές ή εξωτερικές. Το MapReduce παρακολουθεί την εργασία του δημιουργώντας ένα μοναδικό κλειδί για να διασφαλίσει ότι όλη η επεξεργασία σχετίζεται με την επίλυση του ίδιου προβλήματος.Αυτό το κλειδί χρησιμοποιείται επίσης για να τραβήξετε όλη την έξοδο μαζί στο τέλος όλων των κατανεμημένων εργασιών.

Πώς να χρησιμοποιήσετε MapReduce για μεγάλα δεδομένα - dummies

Η επιλογή των συντακτών

Ερωτήσεις για να ρωτήσετε έναν νέο ψυχίατρο - ανδρείκελα

Ερωτήσεις για να ρωτήσετε έναν νέο ψυχίατρο - ανδρείκελα

Όταν ψάχνετε έναν ψυχίατρο για έναν αγαπημένο με σχιζοφρένεια, . Ο ψυχίατρος είναι το κλειδί στη διαχείριση της σχιζοφρένειας του αγαπημένου σας προσώπου, οπότε θα πρέπει να μάθετε μερικές βασικές πληροφορίες πριν την αρχική συνάντηση με τον γιατρό. Ρωτήστε τον ψυχίατρο στις ακόλουθες ερωτήσεις: Πόσο χρεώνεστε ανά επίσκεψη; Κάνετε ...

Γρήγοροι τρόποι διαχείρησης των ανήσυχων σκέψεων σας με προσοχή - ανδρείκελα

Γρήγοροι τρόποι διαχείρησης των ανήσυχων σκέψεων σας με προσοχή - ανδρείκελα

Η προσοχή δεν είναι να σταματήσετε τις σκέψεις, να τα καταστείλει ή να έχει καθαρό μυαλό. Μάλλον πρόκειται να τα φέρει στην επιφάνεια με την ευαισθητοποίηση και την περιέργεια, ώστε να μπορείτε να τα διαχειριστείτε. Μόλις αλλάξετε τη στάση και την αντίληψή σας στις σκέψεις σας, μπορούν να χάσουν την εξουσία τους πάνω σας. Εδώ είναι μερικές γρήγορες ασκήσεις για να ...

Η επιλογή των συντακτών

Επεξεργασίας και μορφοποίησης Clip Art και Εικόνες στο Excel 2007 - ανδρείκελα

Επεξεργασίας και μορφοποίησης Clip Art και Εικόνες στο Excel 2007 - ανδρείκελα

Εισάγεται εικόνα, το Excel 2007 προσθέτει την καρτέλα Picture Tools Format στην Κορδέλα. Χρησιμοποιήστε τις εντολές στην καρτέλα "Εργαλεία εικόνας", εάν θέλετε να επεξεργαστείτε ή να διαμορφώσετε εικόνες clip art ή εικόνες στα φύλλα εργασίας σας. Η καρτέλα "Εργαλειοθήκη εικόνας" χωρίζεται σε τέσσερις ομάδες: Προσαρμογή, ...

Βελτιώνοντας ένα διάγραμμα 3-D στο Excel 2007 - ανδρείκελα

Βελτιώνοντας ένα διάγραμμα 3-D στο Excel 2007 - ανδρείκελα

Excel 2007 περιλαμβάνει διάφορες επιλογές βελτίωσης 3 -D διαγράμματα, όπως αλλαγή της περιστροφής και της προοπτικής και χρήση των επιλογών 3-D που διαμορφώνουν το διάγραμμα γραφήματος. Αυτές και άλλες σχετικές επιλογές μπορούν να βρεθούν στις καρτέλες 3-D Περιστροφή και 3-D στο παράθυρο διαλόγου Format Chart Area. Ακολουθήστε αυτά τα βήματα για να βελτιώσετε το 3-D ...

Βελτιώστε τον πίνακα εργαλείων του Excel με το εργαλείο κάμερας

Βελτιώστε τον πίνακα εργαλείων του Excel με το εργαλείο κάμερας

Το εργαλείο της φωτογραφικής μηχανής του Excel είναι ένα πολύτιμο εργαλείο κατά την κατασκευή των dashboards και εκθέσεις. Σας δίνει τη δυνατότητα να τραβήξετε μια ζωντανή εικόνα μιας σειράς κυψελών που ενημερώνονται δυναμικά, ενώ τα δεδομένα σε αυτό το εύρος ενημερώνονται. Εδώ είναι μερικοί τρόποι για να προχωρήσετε πέρα ​​από τα βασικά και να χρησιμοποιήσετε το εργαλείο κάμερας για να βελτιώσετε τα dashboards σας και ...

Η επιλογή των συντακτών

Αλλάζοντας Ρυθμίσεις μέσω της οθόνης γρήγορου ελέγχου Rebel T6i / 750D - ανδρείκελα

Αλλάζοντας Ρυθμίσεις μέσω της οθόνης γρήγορου ελέγχου Rebel T6i / 750D - ανδρείκελα

Στο Rebel T6i / 750D σας επιτρέπει να αλλάξετε ορισμένες ρυθμίσεις χωρίς να χρησιμοποιήσετε τα κουμπιά λειτουργιών (το κουμπί ISO, το κουμπί αντιστάθμισης έκθεσης κλπ.) ή μενού. Μπορείτε να χρησιμοποιήσετε αυτήν την οθόνη για να προσαρμόσετε τις ρυθμίσεις σε οποιαδήποτε λειτουργία έκθεσης, αλλά οι ρυθμίσεις που είναι προσβάσιμες εξαρτώνται από τη λειτουργία που επιλέγετε και, ...

Αλλαγή της ρύθμισης ισορροπίας λευκού σε φωτογραφική μηχανή Canon EOS Rebel T3 - ανδρείκελα

Αλλαγή της ρύθμισης ισορροπίας λευκού σε φωτογραφική μηχανή Canon EOS Rebel T3 - ανδρείκελα

Σε σύγκριση με την κατανόηση κάποιων πτυχών της ψηφιακής φωτογραφίας, καθιστώντας νόημα τις επιλογές χρωμάτων Canon Rebel T3 ή T3i να είναι εύκολες. Κατ 'αρχάς, τα προβλήματα χρώματος δεν είναι όλα αυτά που είναι συνηθισμένα και όταν είναι, είναι συνήθως απλά να τα διορθώσετε με μια γρήγορη μετατόπιση του ελέγχου της λευκής ισορροπίας της κάμεράς σας. Μπορείτε να αποκτήσετε πρόσβαση στη ρύθμιση "Υπόλοιπο λευκού" μόνο ...