Μηχανή Μάθηση με Mahout στο Hadoop - ανδρείκελα

Η μηχανική μάθηση αναφέρεται σε έναν κλάδο τεχνικών τεχνητής νοημοσύνης που παρέχει εργαλεία που επιτρέπουν στους υπολογιστές να βελτιώνουν την ανάλυσή τους με βάση προηγούμενα γεγονότα. Αυτά τα συστήματα υπολογιστών εκμεταλλεύονται ιστορικά δεδομένα από προηγούμενες προσπάθειες επίλυσης ενός έργου προκειμένου να βελτιώσουν την απόδοση μελλοντικών προσπαθειών σε παρόμοια καθήκοντα.

Όσον αφορά τα αναμενόμενα αποτελέσματα, η μηχανική μάθηση μπορεί να ακούγεται πολύ όπως αυτή η άλλη λέξη λέξη "εξόρυξη δεδομένων"? Ωστόσο, ο πρώτος επικεντρώνεται στην πρόβλεψη μέσω της ανάλυσης προετοιμασμένων δεδομένων εκπαίδευσης, η τελευταία αφορά την ανακάλυψη γνώσης από ακατέργαστα ακατέργαστα δεδομένα. Για το λόγο αυτό, η μηχανική μάθηση εξαρτάται σε μεγάλο βαθμό από τις τεχνικές στατιστικής μοντελοποίησης και αντλεί από περιοχές θεωρίας πιθανοτήτων και αναγνώρισης προτύπων.

Το Mahout είναι ένα έργο ανοιχτού κώδικα από το Apache, προσφέροντας βιβλιοθήκες Java για κατανεμημένους αλγόριθμους μηχανογραφικής μάθησης.

Αυτοί οι αλγόριθμοι καλύπτουν τα κλασικά καθήκοντα εκμάθησης μηχανών όπως ταξινόμηση, ομαδοποίηση, ανάλυση κανόνων σύνδεσης και συστάσεις. Αν και οι βιβλιοθήκες Mahout έχουν σχεδιαστεί για να λειτουργούν μέσα σε ένα περιβάλλον Apache Hadoop, είναι συμβατές με οποιοδήποτε σύστημα που υποστηρίζει το πλαίσιο MapReduce. Για παράδειγμα, το Mahout παρέχει βιβλιοθήκες Java για συλλογές Java και κοινές μεθόδους μαθηματικών (γραμμική άλγεβρα και στατιστικά στοιχεία) που μπορούν να χρησιμοποιηθούν χωρίς Hadoop.

Το Mahout είναι ένα εξελισσόμενο έργο με πολλούς συνεισφέροντες. Μέχρι τη στιγμή της γραφής, η συλλογή αλγορίθμων που είναι διαθέσιμες στις βιβλιοθήκες Mahout δεν είναι με κανένα τρόπο πλήρης. Ωστόσο, η συλλογή των αλγορίθμων που εφαρμόζονται για χρήση συνεχίζει να επεκτείνεται με το χρόνο.

Υπάρχουν τρεις κύριες κατηγορίες αλγορίθμων Mahout για την υποστήριξη της στατιστικής ανάλυσης: συνεργατικό φιλτράρισμα, ομαδοποίηση και ταξινόμηση.

Συνεργασία φιλτραρίσματος

Το Mahout σχεδιάστηκε ειδικά για να εξυπηρετεί ως μηχανή συστάσεων, χρησιμοποιώντας έναν αλγόριθμο συνεργασίας

φιλτραρίσματος . Το Mahout συνδυάζει τον πλούτο των αλγορίθμων ομαδοποίησης και ταξινόμησης που διαθέτει για να παράγει πιο συγκεκριμένες συστάσεις με βάση τα δεδομένα εισόδου. Αυτές οι συστάσεις συχνά εφαρμόζονται κατά των προτιμήσεων των χρηστών, λαμβάνοντας υπόψη τη συμπεριφορά του χρήστη. Συγκρίνοντας τις προηγούμενες επιλογές του χρήστη, είναι δυνατόν να προσδιοριστεί ο πλησιέστερος γείτονας (άτομο με παρόμοιο ιστορικό απόφασης) σε αυτόν τον χρήστη και να προβλεφθούν μελλοντικές επιλογές με βάση τη συμπεριφορά των γειτόνων.

Εξετάστε μια μηχανή "προφίλ γεύσης" όπως το Netflix - ένας κινητήρας που συνιστά βαθμολογίες με βάση τις προηγούμενες βαθμολογίες και τις συνήθειες προβολής αυτού του χρήστη. Σε αυτό το παράδειγμα, τα πρότυπα συμπεριφοράς για έναν χρήστη συγκρίνονται με το ιστορικό του χρήστη - και με τις τάσεις των χρηστών με παρόμοιες προτιμήσεις που ανήκουν στην ίδια κοινότητα Netflix - για τη δημιουργία μιας σύστασης για περιεχόμενο που δεν έχει ακόμη προβληθεί από τον εν λόγω χρήστη.

Ομαδοποίηση

Σε αντίθεση με τη μέθοδο μάθησης εποπτευόμενης λειτουργίας του μηχανισμού συστάσεων του Mahout, η ομαδοποίηση είναι μια μορφή

μη εποπτευόμενης μάθησης - όπου οι ετικέτες για τα σημεία δεδομένων είναι άγνωστες πριν από το χρόνο και πρέπει να συναχθούν από τα δεδομένα χωρίς την ανθρώπινη είσοδο (μέρος υπό εποπτεία ). Γενικά, τα αντικείμενα μέσα σε ένα σύμπλεγμα πρέπει να είναι παρόμοια. τα αντικείμενα από διαφορετικά σύνολα πρέπει να είναι διαφορετικά. Οι αποφάσεις που λαμβάνονται εκ των προτέρων σχετικά με τον αριθμό των ομάδων που δημιουργούνται, τα κριτήρια για τη μέτρηση της "ομοιότητας" και η αναπαράσταση των αντικειμένων θα επηρεάσουν την επισήμανση που παράγεται από αλγόριθμους ομαδοποίησης.

Για παράδειγμα, ένας μηχανισμός συγκέντρωσης που παρέχει μια λίστα άρθρων ειδήσεων θα πρέπει να είναι σε θέση να ορίζει ομάδες συγγραφέων της συλλογής που συζητούν παρόμοια θέματα.

Ας υποθέσουμε ότι ένα σύνολο άρθρων για τον Καναδά, τη Γαλλία, την Κίνα, τη δασοκομία, το πετρέλαιο και το κρασί πρέπει να συγκεντρωθούν. Αν ο μέγιστος αριθμός συμπλεγμάτων ορίστηκε στο 2, ο αλγόριθμός σας μπορεί να παράγει κατηγορίες όπως "περιοχές" και "βιομηχανίες". "Οι προσαρμογές στον αριθμό των ομάδων θα παράγουν διαφορετικές κατηγοριοποιήσεις. για παράδειγμα, η επιλογή για 3 συμπλέγματα μπορεί να οδηγήσει σε ομαδοποιημένες κατηγορίες εθνικών βιομηχανιών.

Ταξινομήσεις

Οι αλγόριθμοι ταξινόμησης χρησιμοποιούν σύνολα δεδομένων κατάρτισης που φέρουν τα ονόματα ανθρώπων, όπου η κατηγοριοποίηση και ταξινόμηση όλων των μελλοντικών εισροών διέπεται από αυτές τις γνωστές ετικέτες. Αυτοί οι ταξινομητές εφαρμόζουν αυτό που είναι γνωστό ως

εποπτευόμενη μάθηση στον κόσμο της μηχανής μάθησης. Οι κανόνες ταξινόμησης - που καθορίζονται από τα δεδομένα εκπαίδευσης, οι οποίοι έχουν προηγουμένως επισημανθεί από εμπειρογνώμονες του τομέα - εφαρμόζονται εν συνεχεία έναντι ακατέργαστων, μη επεξεργασμένων δεδομένων για τον καλύτερο προσδιορισμό της κατάλληλης επισήμανσής τους.

Αυτές οι τεχνικές χρησιμοποιούνται συχνά από υπηρεσίες ηλεκτρονικού ταχυδρομείου που επιχειρούν να ταξινομήσουν τα μηνύματα ηλεκτρονικού ταχυδρομείου ανεπιθύμητης αλληλογραφίας προτού να διασχίσουν τα εισερχόμενά σας. Συγκεκριμένα, δεδομένου ότι ένα μήνυμα ηλεκτρονικού ταχυδρομείου που περιέχει ένα σύνολο φράσεων που είναι γνωστό ότι συμβαίνουν συνήθως σε μια συγκεκριμένη κατηγορία μηνυμάτων ανεπιθύμητης αλληλογραφίας - παραδίδεται από μια διεύθυνση που ανήκει σε ένα γνωστό botnet - ο αλγόριθμος ταξινόμησης σας είναι σε θέση να προσδιορίσει με αξιοπιστία το ηλεκτρονικό ταχυδρομείο ως κακόβουλο.

Εκτός από τον πλούτο των στατιστικών αλγορίθμων που παρέχει η Mahout, είναι επίσης διαθέσιμη μια υπομονάδα υποστήριξης

User Defined Algorithms (UDA). Οι χρήστες μπορούν να παρακάμψουν υπάρχοντες αλγόριθμους ή να εφαρμόσουν τις δικές τους μέσω της μονάδας UDA. Αυτή η ισχυρή προσαρμογή επιτρέπει τον συντονισμό των επιδόσεων των εγγενών αλγορίθμων Mahout και την ευελιξία στην αντιμετώπιση μοναδικών προκλήσεων στατιστικής ανάλυσης. Εάν το Mahout μπορεί να θεωρηθεί ως επέκταση στατιστικής ανάλυσης στο Hadoop, το UDA πρέπει να θεωρηθεί ως επέκταση των στατιστικών δυνατοτήτων του Mahout.

Οι παραδοσιακές εφαρμογές στατιστικής ανάλυσης (όπως το SAS, το SPSS και το R) διαθέτουν ισχυρά εργαλεία για τη δημιουργία ροών εργασίας. Αυτές οι εφαρμογές χρησιμοποιούν διαισθητικές γραφικές διεπαφές χρήστη που επιτρέπουν την καλύτερη οπτικοποίηση δεδομένων. Τα σενάρια Mahout ακολουθούν ένα παρόμοιο πρότυπο με αυτά τα άλλα εργαλεία για τη δημιουργία ροών εργασίας στατιστικής ανάλυσης.

Κατά τη διάρκεια του τελικού βήματος εξερεύνησης δεδομένων και απεικόνισης, οι χρήστες μπορούν να εξαγάγουν σε μορφές αναγνώσιμες από τον άνθρωπο (JSON, CSV) ή να επωφεληθούν από εργαλεία οπτικοποίησης όπως το Tableau Desktop.

Η αρχιτεκτονική Mahout βρίσκεται στην κορυφή της πλατφόρμας Hadoop. Ο Hadoop αποφορτίζει τον προγραμματιστή χωρίζοντας το έργο προγραμματισμού των εργασιών MapReduce από την πολύπλοκη λογιστική που απαιτείται για να διαχειριστεί τον παραλληλισμό μεταξύ των κατανεμημένων συστημάτων αρχείων. Στο ίδιο πνεύμα, ο Mahout παρέχει φιλικές προς τον προγραμματισμό αφαίρεση σύνθετων στατιστικών αλγορίθμων, έτοιμες για εφαρμογή με το πλαίσιο Hadoop.