Βίντεο: Statistical Programming with R by Connor Harris 2024
Ο λόγος οι άνθρωποι δειγματοληψία των δεδομένων τους πριν από τη διεξαγωγή στατιστικής ανάλυσης σε Hadoop είναι ότι αυτό το είδος της ανάλυσης συχνά απαιτεί σημαντικούς υπολογιστικούς πόρους. Δεν πρόκειται μόνο για όγκους δεδομένων: υπάρχουν πέντε κύριοι παράγοντες που επηρεάζουν την κλίμακα της στατιστικής ανάλυσης:
-
Αυτό είναι εύκολο, αλλά πρέπει να το αναφέρουμε: ο όγκος των δεδομένων για τα οποία θα εκτελέσετε την ανάλυση καθορίζει σίγουρα την κλίμακα της ανάλυσης.
-
Ο αριθμός των μετασχηματισμών που απαιτούνται στο σύνολο δεδομένων πριν από την εφαρμογή στατιστικών μοντέλων είναι σίγουρα ένας παράγοντας.
-
Ο αριθμός ζευγών συσχετισμών που θα χρειαστεί να υπολογίσετε παίζει κάποιο ρόλο.
-
Ο βαθμός πολυπλοκότητας των στατιστικών υπολογισμών που πρέπει να εφαρμοστούν είναι ένας παράγοντας.
-
Ο αριθμός των στατιστικών μοντέλων που θα εφαρμοστούν στο σύνολο δεδομένων σας παίζει σημαντικό ρόλο.
Hadoop προσφέρει μια διέξοδο από αυτό το δίλημμα παρέχοντας μια πλατφόρμα για την εκτέλεση μαζικών υπολογισμών παράλληλης επεξεργασίας δεδομένων σε Hadoop.
Με αυτόν τον τρόπο, είναι σε θέση να αναστρέψει την ροή αναλυτικών δεδομένων. αντί να μεταφέρει τα δεδομένα από το χώρο αποθήκευσης στον διακομιστή αναλύσεων, ο Hadoop παραδίδει τα αναλυτικά στοιχεία απευθείας στα δεδομένα. Ειδικότερα, το HDFS σάς επιτρέπει να αποθηκεύετε τα βουνά των δεδομένων σας και στη συνέχεια να φέρετε τους υπολογισμούς (με τη μορφή εργασιών MapReduce) στους κόμβους υποτελών.
Η κοινή πρόκληση που θέτει η μετάβαση από τα παραδοσιακά συμμετρικά στατιστικά συστήματα πολλαπλής επεξεργασίας (SMP) στην αρχιτεκτονική Hadoop είναι η τοποθεσία των δεδομένων. Στις παραδοσιακές πλατφόρμες SMP, πολλοί επεξεργαστές μοιράζονται πρόσβαση σε έναν μοναδικό πόρο κύριας μνήμης.
Στο Hadoop, το HDFS αναπαράγει κατατμήσεις δεδομένων σε πολλαπλούς κόμβους και μηχανές. Επίσης, οι στατιστικοί αλγόριθμοι που σχεδιάστηκαν για την επεξεργασία δεδομένων σε μνήμη πρέπει τώρα να προσαρμόζονται σε σύνολα δεδομένων που καλύπτουν πολλαπλούς κόμβους / ράφια και δεν μπορούν να ελπίζουν να χωρέσουν σε ένα μόνο μπλοκ μνήμης.