Οι Περιορισμοί της Δειγματοληψίας στα στατιστικά στοιχεία ανάλυσης Hadoop - dummies

Βίντεο: ΟΔΗΓΙΕΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ DNA 2024

Οι στατιστικές αναλύσεις απέχουν πολύ από το να είναι ένα νέο παιδί στο μπλοκ, και είναι σίγουρα παλιά νέα ότι εξαρτάται από την επεξεργασία μεγάλων ποσοτήτων δεδομένων για να αποκτήσουν νέα διορατικότητα. Ωστόσο, η ποσότητα των δεδομένων που επεξεργάζονται παραδοσιακά από αυτά τα συστήματα κυμαινόταν μεταξύ 10 και 100 (ή εκατοντάδων) gigabyte - όχι τα terabyte ή petabyte που φαίνονται σήμερα, με άλλα λόγια.

Και συχνά απαιτείτο ένα ακριβό συμμετρικό μηχάνημα πολλαπλής επεξεργασίας (SMP) με όσο το δυνατόν περισσότερη μνήμη για να κρατάτε τα δεδομένα που αναλύονται. Αυτό οφείλεται στο γεγονός ότι πολλοί από τους αλγόριθμους που χρησιμοποιήθηκαν από τις αναλυτικές προσεγγίσεις ήταν αρκετά "υπολογιστικοί εντατικοί" και είχαν σχεδιαστεί για να τρέχουν στη μνήμη - καθώς απαιτούν πολλαπλές και συχνές συχνότητες που περνούν μέσα από τα δεδομένα.

Αντιμετωπίζοντας το ακριβό υλικό και μια αρκετά μεγάλη δέσμευση όσον αφορά το χρόνο και τη μνήμη RAM, οι λαοί προσπάθησαν να καταστήσουν λίγο πιο λογικό το φόρτο εργασίας των αναλυτών, αναλύοντας μόνο μια δειγματοληψία των δεδομένων. Η ιδέα ήταν να διατηρηθούν τα βουνά στα βουνά των δεδομένων με ασφάλεια αποθηκευμένα σε αποθήκες δεδομένων, μετακινώντας μόνο μια στατιστικά σημαντική δειγματοληψία των δεδομένων από τα αποθετήρια τους σε μια στατιστική μηχανή.

Ενώ η δειγματοληψία αποτελεί μια θεωρητική ιδέα, στην πράξη αυτό είναι συχνά μια αναξιόπιστη τακτική. Η εύρεση μιας στατιστικά σημαντικής δειγματοληψίας μπορεί να αποτελέσει πρόκληση για τα αραιά και / ή τα επικαλυμμένα σύνολα δεδομένων, τα οποία είναι αρκετά συνηθισμένα. Αυτό οδηγεί σε δειγματοληπτικά δειγματοληπτικά δειγματοληψίες, οι οποίες μπορούν να εισάγουν αποκλίσεις και ανώμαλα σημεία δεδομένων και μπορούν με τη σειρά τους να προκαλέσουν τα αποτελέσματα της ανάλυσής σας.