Βίντεο: BigML - How to interact with a Model 2024
Ένα εργαλείο ανοιχτού κώδικα που είναι μοναδικά χρήσιμο στην ανάλυση προγνωστικών είναι το Apache Mahout. Αυτή η βιβλιοθήκη εκμάθησης μηχανών περιλαμβάνει εκδόσεις μεγάλης κλίμακας για την ομαδοποίηση, την ταξινόμηση, το συνεργατικό φιλτράρισμα και άλλους αλγορίθμους εξόρυξης δεδομένων που μπορούν να υποστηρίξουν ένα πρότυπο αναλυτικής πρόγνωσης μεγάλης κλίμακας.
Ένας πολύ συνιστώμενος τρόπος για να επεξεργαστείτε τα δεδομένα που απαιτούνται για ένα τέτοιο μοντέλο είναι να εκτελέσετε Mahout σε ένα σύστημα που τρέχει ήδη Hadoop. Ο Hadoop ορίζει μια κύρια μηχανή που ενορχηστρώνει τα υπόλοιπα μηχανήματα (όπως Μηχανές Χαρτών και Μηχανές Μείωσης) που χρησιμοποιούνται στην κατανεμημένη επεξεργασία. Το Mahout πρέπει να εγκατασταθεί σε αυτό το κύριο μηχάνημα.
Φανταστείτε ότι έχετε μεγάλο όγκο ροής δεδομένων - άρθρα ειδήσεων της Google - και θέλετε να συσπειρώσετε ανά θέμα, χρησιμοποιώντας έναν από τους αλγόριθμους ομαδοποίησης. Αφού εγκαταστήσετε τους Hadoop και Mahout, μπορείτε να εκτελέσετε έναν από τους αλγόριθμους - όπως το K-means - στα δεδομένα σας.
Η εφαρμογή του K-means στο Mahout χρησιμοποιεί μια προσέγγιση MapReduce, η οποία την κάνει διαφορετική από την κανονική εφαρμογή των μέσων K. Το Mahout υποδιαιρεί τον αλγόριθμο Κ-μέσου σε αυτές τις υπο-διαδικασίες:
-
Το KmeansMapper διαβάζει το σύνολο δεδομένων εισόδου και θα εκχωρήσει κάθε σημείο εισόδου στο πλησιέστερο αρχικά επιλεγμένο μέσο (εκπρόσωποι συμπλέγματος).
-
Η διαδικασία KmeansCombiner θα λάβει όλα τα αρχεία - ζεύγη - που παράγονται από το KmeansMapper και θα παράγει μερικά ποσά για να διευκολύνει τον υπολογισμό των επόμενων εκπροσώπων συμπλέγματος.
-
Το KmeansReducer λαμβάνει τις τιμές που παράγονται από όλες τις υποτάξεις (συνδυαστές) για να υπολογίσει τα πραγματικά κεντροειδή των συστάδων που είναι η τελική έξοδος των μέσων Κ.
-
KmeansDriver χειρίζεται τις επαναλήψεις της διαδικασίας έως ότου όλα τα συμπλέγματα έχουν συγκλίνει. Η έξοδος μιας δεδομένης επανάληψης, μια έξοδος μερικής ομαδοποίησης, χρησιμοποιείται ως είσοδος για την επόμενη επανάληψη. Η διαδικασία της χαρτογράφησης και της μείωσης του συνόλου δεδομένων μέχρι την ανάθεση των εγγραφών και των συμπλεγμάτων δεν δείχνει περαιτέρω αλλαγές.
Το Apache Mahout είναι ένα πρόσφατα αναπτυγμένο έργο. η λειτουργικότητά του έχει ακόμα αρκετό χώρο για να φιλοξενήσει επεκτάσεις. Εν τω μεταξύ, ο Mahout χρησιμοποιεί ήδη το MapReduce για την εφαρμογή ταξινόμησης, ομαδοποίησης και άλλων τεχνικών εκμάθησης μηχανών - και μπορεί να το κάνει σε μεγάλη κλίμακα.