Βίντεο: RHadoop - Integrating R with Hadoop | How to Integrate R, Hadoop | R Programming Tutorial | Edureka 2024
Η πειθαρχία της μηχανής μάθησης έχει έναν πλούσιο και εκτεταμένο κατάλογο τεχνικών. Ο Mahout φέρνει στον πίνακα ένα εύρος στατιστικών εργαλείων και αλγορίθμων, αλλά καταγράφει μόνο ένα κλάσμα αυτών των τεχνικών και αλγορίθμων, καθώς το έργο της μετατροπής αυτών των μοντέλων σε ένα πλαίσιο MapReduce είναι ένα προκλητικό.
Με την πάροδο του χρόνου, ο Mahout είναι βέβαιο ότι θα συνεχίσει να επεκτείνει την στατιστική του εργαλειοθήκη, αλλά μέχρι τότε όλοι οι επιστήμονες δεδομένων και οι στατιστικολόγοι πρέπει να γνωρίζουν εναλλακτικό λογισμικό στατιστικής μοντελοποίησης - - 1 ->
Η γλώσσα R είναι μια ισχυρή και δημοφιλής στατιστική γλώσσα και περιβάλλον ανάπτυξης ανοιχτού κώδικα. Προσφέρει ένα πλούσιο οικοσύστημα ανάλυσης που μπορεί να βοηθήσει τους επιστήμονες δεδομένων με την εξερεύνηση δεδομένων, την οπτικοποίηση, τη στατιστική ανάλυση και τον υπολογισμό, τη μοντελοποίηση, την εκμάθηση μηχανών και την προσομοίωση. Η γλώσσα R χρησιμοποιείται συνήθως από τους στατιστικολόγους, τους ανθρακωρύχους δεδομένων, τους αναλυτές δεδομένων και τους (σήμερα) επιστήμονες δεδομένων.Comprehensive R Archive Archive
(CRAN), οι οποίες, από τη στιγμή της γραφής, περιέχουν πάνω από 3000 πακέτα στατιστικής ανάλυσης. Αυτά τα πρόσθετα μπορούν να τραβηχτούν σε οποιοδήποτε έργο R, παρέχοντας πλούσια αναλυτικά εργαλεία για τη λειτουργία της ταξινόμησης, της παλινδρόμησης, της ομαδοποίησης, της γραμμικής μοντελοποίησης και πιο εξειδικευμένων αλγορίθμων μηχανικής μάθησης. Η γλώσσα είναι προσιτή σε όσους γνωρίζουν τους απλούς τύπους δομών δεδομένων - διανύσματα, κλιμάκια, πλαίσια δεδομένων (μήτρες) και τα παρόμοια - που χρησιμοποιούνται συνήθως από τους στατιστικολόγους καθώς και από τους προγραμματιστές.
Από το κουτί, μια από τις μεγαλύτερες παγίδες με τη χρήση της γλώσσας R είναι η έλλειψη υποστήριξης που προσφέρει για την εκτέλεση ταυτόχρονων εργασιών. Τα εργαλεία στατιστικής γλώσσας όπως το R excel σε αυστηρή ανάλυση, αλλά η έλλειψη επεκτασιμότητας και η μητρική υποστήριξη για παράλληλους υπολογισμούς.
Αυτά τα συστήματα είναι μη διανεμητέα και δεν αναπτύχθηκαν για να είναι κλιμακωτά για τον σύγχρονο πεταχωτό κόσμο των μεγάλων δεδομένων. Οι προτάσεις για την υπέρβαση αυτών των περιορισμών πρέπει να επεκτείνουν το πεδίο εφαρμογής του R πέρα από τη φόρτωση εντός μνήμης και τα ενιαία περιβάλλοντα εκτέλεσης υπολογιστών, διατηρώντας παράλληλα τη διάθεση του R για τους εύκολα αναπτυσσόμενους στατιστικούς αλγόριθμους.