Σπίτι Προσωπικά Οικονομικά Μηχανή Μάθηση με Mahout στο Hadoop - ανδρείκελα

Μηχανή Μάθηση με Mahout στο Hadoop - ανδρείκελα

Πίνακας περιεχομένων:

Βίντεο: Motocross Bike | Childrens Cartoon | Car Video For Kids 2024

Βίντεο: Motocross Bike | Childrens Cartoon | Car Video For Kids 2024
Anonim

Η μηχανική μάθηση αναφέρεται σε έναν κλάδο τεχνικών τεχνητής νοημοσύνης που παρέχει εργαλεία που επιτρέπουν στους υπολογιστές να βελτιώνουν την ανάλυσή τους με βάση προηγούμενα γεγονότα. Αυτά τα συστήματα υπολογιστών εκμεταλλεύονται ιστορικά δεδομένα από προηγούμενες προσπάθειες επίλυσης ενός έργου προκειμένου να βελτιώσουν την απόδοση μελλοντικών προσπαθειών σε παρόμοια καθήκοντα.

Όσον αφορά τα αναμενόμενα αποτελέσματα, η μηχανική μάθηση μπορεί να ακούγεται πολύ όπως αυτή η άλλη λέξη λέξη "εξόρυξη δεδομένων"? Ωστόσο, ο πρώτος επικεντρώνεται στην πρόβλεψη μέσω της ανάλυσης προετοιμασμένων δεδομένων εκπαίδευσης, η τελευταία αφορά την ανακάλυψη γνώσης από ακατέργαστα ακατέργαστα δεδομένα. Για το λόγο αυτό, η μηχανική μάθηση εξαρτάται σε μεγάλο βαθμό από τις τεχνικές στατιστικής μοντελοποίησης και αντλεί από περιοχές θεωρίας πιθανοτήτων και αναγνώρισης προτύπων.

Το Mahout είναι ένα έργο ανοιχτού κώδικα από το Apache, προσφέροντας βιβλιοθήκες Java για κατανεμημένους αλγόριθμους μηχανογραφικής μάθησης.

Αυτοί οι αλγόριθμοι καλύπτουν τα κλασικά καθήκοντα εκμάθησης μηχανών όπως ταξινόμηση, ομαδοποίηση, ανάλυση κανόνων σύνδεσης και συστάσεις. Αν και οι βιβλιοθήκες Mahout έχουν σχεδιαστεί για να λειτουργούν μέσα σε ένα περιβάλλον Apache Hadoop, είναι συμβατές με οποιοδήποτε σύστημα που υποστηρίζει το πλαίσιο MapReduce. Για παράδειγμα, το Mahout παρέχει βιβλιοθήκες Java για συλλογές Java και κοινές μεθόδους μαθηματικών (γραμμική άλγεβρα και στατιστικά στοιχεία) που μπορούν να χρησιμοποιηθούν χωρίς Hadoop.

Το Mahout είναι ένα εξελισσόμενο έργο με πολλούς συνεισφέροντες. Μέχρι τη στιγμή της γραφής, η συλλογή αλγορίθμων που είναι διαθέσιμες στις βιβλιοθήκες Mahout δεν είναι με κανένα τρόπο πλήρης. Ωστόσο, η συλλογή των αλγορίθμων που εφαρμόζονται για χρήση συνεχίζει να επεκτείνεται με το χρόνο.

Υπάρχουν τρεις κύριες κατηγορίες αλγορίθμων Mahout για την υποστήριξη της στατιστικής ανάλυσης: συνεργατικό φιλτράρισμα, ομαδοποίηση και ταξινόμηση.

Συνεργασία φιλτραρίσματος

Το Mahout σχεδιάστηκε ειδικά για να εξυπηρετεί ως μηχανή συστάσεων, χρησιμοποιώντας έναν αλγόριθμο συνεργασίας

φιλτραρίσματος . Το Mahout συνδυάζει τον πλούτο των αλγορίθμων ομαδοποίησης και ταξινόμησης που διαθέτει για να παράγει πιο συγκεκριμένες συστάσεις με βάση τα δεδομένα εισόδου. Αυτές οι συστάσεις συχνά εφαρμόζονται κατά των προτιμήσεων των χρηστών, λαμβάνοντας υπόψη τη συμπεριφορά του χρήστη. Συγκρίνοντας τις προηγούμενες επιλογές του χρήστη, είναι δυνατόν να προσδιοριστεί ο πλησιέστερος γείτονας (άτομο με παρόμοιο ιστορικό απόφασης) σε αυτόν τον χρήστη και να προβλεφθούν μελλοντικές επιλογές με βάση τη συμπεριφορά των γειτόνων.

Εξετάστε μια μηχανή "προφίλ γεύσης" όπως το Netflix - ένας κινητήρας που συνιστά βαθμολογίες με βάση τις προηγούμενες βαθμολογίες και τις συνήθειες προβολής αυτού του χρήστη. Σε αυτό το παράδειγμα, τα πρότυπα συμπεριφοράς για έναν χρήστη συγκρίνονται με το ιστορικό του χρήστη - και με τις τάσεις των χρηστών με παρόμοιες προτιμήσεις που ανήκουν στην ίδια κοινότητα Netflix - για τη δημιουργία μιας σύστασης για περιεχόμενο που δεν έχει ακόμη προβληθεί από τον εν λόγω χρήστη.

Ομαδοποίηση

Σε αντίθεση με τη μέθοδο μάθησης εποπτευόμενης λειτουργίας του μηχανισμού συστάσεων του Mahout, η ομαδοποίηση είναι μια μορφή

μη εποπτευόμενης μάθησης - όπου οι ετικέτες για τα σημεία δεδομένων είναι άγνωστες πριν από το χρόνο και πρέπει να συναχθούν από τα δεδομένα χωρίς την ανθρώπινη είσοδο (μέρος υπό εποπτεία ). Γενικά, τα αντικείμενα μέσα σε ένα σύμπλεγμα πρέπει να είναι παρόμοια. τα αντικείμενα από διαφορετικά σύνολα πρέπει να είναι διαφορετικά. Οι αποφάσεις που λαμβάνονται εκ των προτέρων σχετικά με τον αριθμό των ομάδων που δημιουργούνται, τα κριτήρια για τη μέτρηση της "ομοιότητας" και η αναπαράσταση των αντικειμένων θα επηρεάσουν την επισήμανση που παράγεται από αλγόριθμους ομαδοποίησης.

Για παράδειγμα, ένας μηχανισμός συγκέντρωσης που παρέχει μια λίστα άρθρων ειδήσεων θα πρέπει να είναι σε θέση να ορίζει ομάδες συγγραφέων της συλλογής που συζητούν παρόμοια θέματα.

Ας υποθέσουμε ότι ένα σύνολο άρθρων για τον Καναδά, τη Γαλλία, την Κίνα, τη δασοκομία, το πετρέλαιο και το κρασί πρέπει να συγκεντρωθούν. Αν ο μέγιστος αριθμός συμπλεγμάτων ορίστηκε στο 2, ο αλγόριθμός σας μπορεί να παράγει κατηγορίες όπως "περιοχές" και "βιομηχανίες". "Οι προσαρμογές στον αριθμό των ομάδων θα παράγουν διαφορετικές κατηγοριοποιήσεις. για παράδειγμα, η επιλογή για 3 συμπλέγματα μπορεί να οδηγήσει σε ομαδοποιημένες κατηγορίες εθνικών βιομηχανιών.

Ταξινομήσεις

Οι αλγόριθμοι ταξινόμησης χρησιμοποιούν σύνολα δεδομένων κατάρτισης που φέρουν τα ονόματα ανθρώπων, όπου η κατηγοριοποίηση και ταξινόμηση όλων των μελλοντικών εισροών διέπεται από αυτές τις γνωστές ετικέτες. Αυτοί οι ταξινομητές εφαρμόζουν αυτό που είναι γνωστό ως

εποπτευόμενη μάθηση στον κόσμο της μηχανής μάθησης. Οι κανόνες ταξινόμησης - που καθορίζονται από τα δεδομένα εκπαίδευσης, οι οποίοι έχουν προηγουμένως επισημανθεί από εμπειρογνώμονες του τομέα - εφαρμόζονται εν συνεχεία έναντι ακατέργαστων, μη επεξεργασμένων δεδομένων για τον καλύτερο προσδιορισμό της κατάλληλης επισήμανσής τους.

Αυτές οι τεχνικές χρησιμοποιούνται συχνά από υπηρεσίες ηλεκτρονικού ταχυδρομείου που επιχειρούν να ταξινομήσουν τα μηνύματα ηλεκτρονικού ταχυδρομείου ανεπιθύμητης αλληλογραφίας προτού να διασχίσουν τα εισερχόμενά σας. Συγκεκριμένα, δεδομένου ότι ένα μήνυμα ηλεκτρονικού ταχυδρομείου που περιέχει ένα σύνολο φράσεων που είναι γνωστό ότι συμβαίνουν συνήθως σε μια συγκεκριμένη κατηγορία μηνυμάτων ανεπιθύμητης αλληλογραφίας - παραδίδεται από μια διεύθυνση που ανήκει σε ένα γνωστό botnet - ο αλγόριθμος ταξινόμησης σας είναι σε θέση να προσδιορίσει με αξιοπιστία το ηλεκτρονικό ταχυδρομείο ως κακόβουλο.

Εκτός από τον πλούτο των στατιστικών αλγορίθμων που παρέχει η Mahout, είναι επίσης διαθέσιμη μια υπομονάδα υποστήριξης

User Defined Algorithms (UDA). Οι χρήστες μπορούν να παρακάμψουν υπάρχοντες αλγόριθμους ή να εφαρμόσουν τις δικές τους μέσω της μονάδας UDA. Αυτή η ισχυρή προσαρμογή επιτρέπει τον συντονισμό των επιδόσεων των εγγενών αλγορίθμων Mahout και την ευελιξία στην αντιμετώπιση μοναδικών προκλήσεων στατιστικής ανάλυσης. Εάν το Mahout μπορεί να θεωρηθεί ως επέκταση στατιστικής ανάλυσης στο Hadoop, το UDA πρέπει να θεωρηθεί ως επέκταση των στατιστικών δυνατοτήτων του Mahout.

Οι παραδοσιακές εφαρμογές στατιστικής ανάλυσης (όπως το SAS, το SPSS και το R) διαθέτουν ισχυρά εργαλεία για τη δημιουργία ροών εργασίας. Αυτές οι εφαρμογές χρησιμοποιούν διαισθητικές γραφικές διεπαφές χρήστη που επιτρέπουν την καλύτερη οπτικοποίηση δεδομένων. Τα σενάρια Mahout ακολουθούν ένα παρόμοιο πρότυπο με αυτά τα άλλα εργαλεία για τη δημιουργία ροών εργασίας στατιστικής ανάλυσης.

Κατά τη διάρκεια του τελικού βήματος εξερεύνησης δεδομένων και απεικόνισης, οι χρήστες μπορούν να εξαγάγουν σε μορφές αναγνώσιμες από τον άνθρωπο (JSON, CSV) ή να επωφεληθούν από εργαλεία οπτικοποίησης όπως το Tableau Desktop.

Η αρχιτεκτονική Mahout βρίσκεται στην κορυφή της πλατφόρμας Hadoop. Ο Hadoop αποφορτίζει τον προγραμματιστή χωρίζοντας το έργο προγραμματισμού των εργασιών MapReduce από την πολύπλοκη λογιστική που απαιτείται για να διαχειριστεί τον παραλληλισμό μεταξύ των κατανεμημένων συστημάτων αρχείων. Στο ίδιο πνεύμα, ο Mahout παρέχει φιλικές προς τον προγραμματισμό αφαίρεση σύνθετων στατιστικών αλγορίθμων, έτοιμες για εφαρμογή με το πλαίσιο Hadoop.

Μηχανή Μάθηση με Mahout στο Hadoop - ανδρείκελα

Η επιλογή των συντακτών

Εξαρτήματα ηλεκτρονικών: Ενισχυτές ανοιχτού βρόχου

Εξαρτήματα ηλεκτρονικών: Ενισχυτές ανοιχτού βρόχου

Οι πιο βασικές ηλεκτρονικές χρήσεις ενός ενισχυτή Op είναι ως ενισχυτής. Εάν συνδέσετε μια πηγή εισόδου σε έναν από τους ακροδέκτες εισόδου και γειώσετε τον άλλο ακροδέκτη εισόδου, εμφανίζεται μια ενισχυμένη έκδοση του σήματος εισόδου στο εξωτερικό τερματικό. Μια σημαντική ιδέα στα κυκλώματα op-amp ...

Ηλεκτρονικά Στοιχεία: Δημοφιλή Op Amp Ενσωματωμένα Κυκλώματα - Dummy

Ηλεκτρονικά Στοιχεία: Δημοφιλή Op Amp Ενσωματωμένα Κυκλώματα - Dummy

Για την οικοδόμηση ενός πραγματικού ηλεκτρονικού κυκλώματος χρησιμοποιώντας Op-amp, φυσικά, θα πρέπει να χρησιμοποιήσετε ένα πραγματικό ενισχυτή op. Ευτυχώς, τα ενσωματωμένα ολοκληρωμένα κυκλώματα (IC) είναι άφθονα και σχεδόν όλα τα καταστήματα που πωλούν ηλεκτρονικά εξαρτήματα πωλούν διάφορους τύπους φθηνών IC-ενισχυτών. Το πιο δημοφιλές op-amp IC είναι το LM741, το οποίο έρχεται ...

Ηλεκτρονικά Συστατικά: Κύκλοι ταλαντωτών - ανδρείκελοι

Ηλεκτρονικά Συστατικά: Κύκλοι ταλαντωτών - ανδρείκελοι

. Η ακριβής κυματομορφή που παράγεται εξαρτάται από τον τύπο του κυκλώματος που χρησιμοποιείται για τη δημιουργία του ταλαντωτή. Ένα από τα συνηθέστερα χρησιμοποιούμενα κυκλώματα ταλαντωτών είναι κατασκευασμένο από ένα ζεύγος τρανζίστορ που είναι εφοδιασμένα για να εναλλάσσονται και να σβήνουν εναλλάξ. Αυτός ο τύπος κυκλώματος είναι ...

Η επιλογή των συντακτών

Ασκήσεις για ανδρείκελα Κατάρτιση για ανδρείκελα Εξάσκηση - ανδρείκελα

Ασκήσεις για ανδρείκελα Κατάρτιση για ανδρείκελα Εξάσκηση - ανδρείκελα

Η ασήμαντη εκπαίδευση είναι ένα σημαντικό βήμα στην ανάπτυξη των παιδιών. Ως γονέας, θα πρέπει να αναγνωρίσετε τα σημάδια ότι το παιδί σας είναι έτοιμο για την ομιλία της τουαλέτας, να ξεκινήσει μια διαδικασία ασήμαντης κατάρτισης, να συνεχίσει τη διαδικασία και να αναγνωρίσει πότε το παιδί σας είναι σχεδόν εκεί. Κατά τη διάρκεια της διαδρομής, πρέπει να σιγουρευτείτε ότι το παιδί σας ξέρει ...

Εκπαίδευση για παιδιά με αναπηρίες - ανδρείκελα

Εκπαίδευση για παιδιά με αναπηρίες - ανδρείκελα

Παιδιά, ανάλογα με την αναπηρία. Μπορεί να χρειαστεί να παρέχετε στηρίγματα υψηλής τεχνολογίας που διευκολύνουν την κίνηση από τον περιπατητή ή την αναπηρική καρέκλα στην τουαλέτα (δείτε την ενότητα "Εργασία με ειδικό εργαλείο" σε αυτό το άρθρο.) Από την άλλη πλευρά, το παιδί σας μπορεί να ...

Υποδηλώνουν ότι το παιδί σας είναι έτοιμο για ασήμαντη εκπαίδευση - ανδρείκελα

Υποδηλώνουν ότι το παιδί σας είναι έτοιμο για ασήμαντη εκπαίδευση - ανδρείκελα

Την ημέρα που κάθε γονιός επιθυμεί, αλλά δεν μπορείτε να βιάσετε τη διαδικασία. Περιμένετε τα σημάδια ότι το παιδί σας είναι έτοιμο να αντιμετωπίσει αυτή τη μεγάλη πρόκληση. Παρακολουθήστε τα σημεία στην παρακάτω λίστα. οι πρώτες πέντε είναι απολύτως απαραίτητες: μένει ξηρό τουλάχιστον δύο ώρες παίρνει Bummed από υγρό ή ...

Η επιλογή των συντακτών

Πώς να χρησιμοποιήσετε τη φαντασία σας για να χαλαρώσετε το σώμα σας για διαλογισμό - Dummies

Πώς να χρησιμοποιήσετε τη φαντασία σας για να χαλαρώσετε το σώμα σας για διαλογισμό - Dummies

Αναδυόμενο πεδίο της ιατρικής μυαλού-σώματος υπενθυμίζει στους ανθρώπους - και γιόγκι και σοφοί έχουν πει για χιλιετίες - το σώμα σας, το μυαλό σας και η καρδιά σας αποτελούν ένα ενιαίο και αδιάσπαστο σύνολο. Όταν οι σκέψεις σας συνεχίζουν να σφύζουν από την ανησυχία σας, το σώμα σας αποκρίνεται με τη σύσφιξη και την τάνυση, ειδικά σε ορισμένες σημαντικές θέσεις ...

Πώς να χρησιμοποιήσετε την προσοχή για τη διαχείριση του πόνου

Πώς να χρησιμοποιήσετε την προσοχή για τη διαχείριση του πόνου

Πόνος είναι κάτι που θα αντιμετωπίσει κάποιος σε κάποιο σημείο . Η προσοχή μπορεί να σας βοηθήσει να προσεγγίσετε πόνο με υγιεινό τρόπο. Ο οξύς πόνος είναι ένας αιχμηρός πόνος που διαρκεί για μικρό χρονικό διάστημα, μερικές φορές ορίζεται ως λιγότερο από 12 εβδομάδες. Η ιατρική είναι αρκετά καλή για τη θεραπεία του οξέος πόνου. Ο χρόνιος πόνος είναι ο πόνος που διαρκεί ...

Βελτίωση των σχέσεών σας - ανδρείκεS

Βελτίωση των σχέσεών σας - ανδρείκεS

Σχέσεις - είτε με την οικογένεια, τους φίλους ή τους εραστές; Και δεν έχει σημασία πόσο χαρούμενος και ευχαριστημένος είστε με τις σημαντικές σχέσεις στη ζωή σας, υπάρχει πάντα περιθώριο βελτίωσης. Οι σχέσεις, όπως όλες οι διεργασίες, επίσης καταλήγουν και ρέουν και σας παρουσιάζουν προκλήσεις. Εδώ είναι μερικές εξαιρετικές τεχνικές για να σας βοηθήσουμε ...