Βίντεο: Data Analysts Tools - 5 Crucial Data Tools [2019] 2024
Η μετατροπή των στατιστικών μοντέλων σε παράλληλη εκτέλεση είναι μια δύσκολη εργασία. Στο παραδοσιακό παράδειγμα για τον παράλληλο προγραμματισμό, η πρόσβαση στη μνήμη ρυθμίζεται μέσω της χρήσης νημάτων - των υπο-διαδικασιών που δημιουργούνται από το λειτουργικό σύστημα για τη διανομή μίας ενιαίας κοινόχρηστης μνήμης σε πολλούς επεξεργαστές.
Παράγοντες όπως οι συνθήκες αγώνα μεταξύ ανταγωνιστικών νημάτων - όταν δύο ή περισσότερα θέματα προσπαθούν να αλλάξουν ταυτόχρονα τα κοινά δεδομένα - μπορούν να επηρεάσουν την απόδοση του αλγορίθμου σας, καθώς και να επηρεάσουν την ακρίβεια των στατιστικών αποτελεσμάτων του προγράμματος σας - για μακροχρόνιες αναλύσεις μεγάλων σειρών δειγμάτων.
Μια ρεαλιστική προσέγγιση στο πρόβλημα αυτό είναι να υποθέσουμε ότι πολλοί στατιστικολόγοι δεν θα γνωρίζουν τα μέσα και τα πλεονεκτήματα του MapReduce (και αντίστροφα), ούτε μπορείτε να περιμένετε ότι θα γνωρίζουν όλες τις παγίδες που συνεπάγεται ο παράλληλος προγραμματισμός. Οι συντελεστές του έργου Hadoop έχουν (και συνεχίζουν να αναπτύσσουν) στατιστικά εργαλεία με γνώμονα αυτές τις πραγματικότητες.
Το αποτέλεσμα: Hadoop προσφέρει πολλές λύσεις για την εφαρμογή των αλγορίθμων που απαιτούνται για τη διεξαγωγή στατιστικής μοντελοποίησης και ανάλυσης, χωρίς να επιβαρύνεται ο στατιστικολόγος με εκλεπτυσμένους παράλληλους προγραμματισμούς.