Πίνακας περιεχομένων:
- Ελέγξτε τις μορφές δεδομένων
- Επαλήθευση τύπων δεδομένων
- Γράψτε τα δεδομένα σας
- Επαληθεύστε την ακρίβεια των δεδομένων
- Προσδιορίστε τα αποθέματα
- Αντιμετώπιση ελλιπών τιμών
- Ελέγξτε τις υποθέσεις σας για το πώς διανέμονται τα δεδομένα
- Δημιουργία αντιγράφων ασφαλείας και τεκμηρίωση όσων κάνετε
Βίντεο: How to get ready for the Holiday Season 2024
Τα στατιστικά πακέτα λογισμικού είναι εξαιρετικά ισχυρά αυτές τις μέρες, αλλά δεν μπορούν να ξεπεράσουν τα δεδομένα κακής ποιότητας. Ακολουθεί μια λίστα ελέγχου των πραγμάτων που πρέπει να κάνετε πριν ξεκινήσετε την κατασκευή στατιστικών μοντέλων.
Ελέγξτε τις μορφές δεδομένων
Η ανάλυσή σας αρχίζει πάντα με ένα αρχείο πρώτων δεδομένων. Τα αρχεία ακατέργαστων δεδομένων διατίθενται σε πολλά διαφορετικά σχήματα και μεγέθη. Τα δεδομένα κεντρικού υπολογιστή είναι διαφορετικά από τα δεδομένα υπολογιστών, τα δεδομένα υπολογιστικού φύλλου έχουν μορφοποιηθεί διαφορετικά από τα δεδομένα ιστού και ούτω καθεξής. Και στην εποχή των μεγάλων δεδομένων, σίγουρα θα αντιμετωπίσετε δεδομένα από διάφορες πηγές. Το πρώτο σας βήμα στην ανάλυση των δεδομένων σας είναι να βεβαιωθείτε ότι μπορείτε να διαβάσετε τα αρχεία που σας δίνονται.
Πρέπει πραγματικά να δούμε τι περιέχει κάθε πεδίο. Για παράδειγμα, δεν είναι σοφό να πιστεύουμε ότι μόνο επειδή ένα πεδίο παρατίθεται ως πεδίο χαρακτήρων, περιέχει πραγματικά δεδομένα χαρακτήρα.
Επαλήθευση τύπων δεδομένων
Όλα τα δεδομένα εμπίπτουν σε μία από τις τέσσερις κατηγορίες που επηρεάζουν το είδος των στατιστικών που μπορείτε να εφαρμόσετε κατάλληλα σε αυτό:
-
Τα ονομαστικά δεδομένα είναι ουσιαστικά μόνο ένα όνομα ή ένα αναγνωριστικό.
-
Τα κανονικά δεδομένα βάζουν τα αρχεία σε σειρά από το χαμηλότερο στο υψηλότερο.
-
Τα δεδομένα διαστημάτων αντιπροσωπεύουν τιμές όπου οι διαφορές μεταξύ τους είναι συγκρίσιμες.
-
Τα δεδομένα αναλογίας είναι παρόμοια με τα δεδομένα διαστήματος εκτός από το ότι επιτρέπει επίσης και μια τιμή 0.
Είναι σημαντικό να κατανοήσετε ποιες κατηγορίες εμπίπτουν τα δεδομένα σας προτού τα εισαγάγετε στο στατιστικό λογισμικό. Διαφορετικά, κινδυνεύετε να καταλήξετε με απόλυτα λογικές σκέψεις.
Γράψτε τα δεδομένα σας
Είναι σημαντικό να γνωρίζετε πώς διανέμονται τα δεδομένα σας. Μπορείτε να εκτελέσετε στατιστικές διαδικασίες μέχρι να είστε μπλε στο πρόσωπο, αλλά κανένας από αυτούς δεν θα σας δώσει τόσο μεγάλη εικόνα για το πώς τα δεδομένα σας μοιάζουν με ένα απλό γράφημα.
Επαληθεύστε την ακρίβεια των δεδομένων
Μόλις είστε έτοιμοι να μορφοποιήσετε τα δεδομένα με τον τρόπο που θέλετε, πρέπει να βεβαιωθείτε ότι είναι ακριβή και ότι έχει νόημα. Αυτό το βήμα απαιτεί να έχετε μερικές γνώσεις σχετικά με το θέμα στο οποίο εργάζεστε.
Δεν υπάρχει πραγματικά μια λύση αποκοπής και αποξήρανσης για την επαλήθευση της ακρίβειας των δεδομένων. Η βασική ιδέα είναι να διαμορφώσουμε κάποιες ιδιότητες που νομίζετε ότι τα δεδομένα πρέπει να παρουσιάζουν και να ελέγχουν τα δεδομένα για να διαπιστώσουν εάν διατηρούνται αυτές οι ιδιότητες. Είναι οι τιμές των μετοχών πάντα θετικές; Οι κωδικοί των προϊόντων συμφωνούν με τον κατάλογο των έγκυρων; Ουσιαστικά, προσπαθείτε να υπολογίσετε αν τα δεδομένα είναι πραγματικά αυτά που σας έχουν πει.
Προσδιορίστε τα αποθέματα
Τα Outliers είναι σημεία δεδομένων που είναι εκτός συντριβής με τα υπόλοιπα δεδομένα. Είναι πολύ μεγάλες ή πολύ μικρές τιμές σε σχέση με το υπόλοιπο σύνολο δεδομένων.
Οι υπεραγορές είναι προβληματικές επειδή μπορούν να θέσουν σε σοβαρό κίνδυνο τις στατιστικές και τις στατιστικές διαδικασίες. Ένα ενιαίο outlier μπορεί να έχει τεράστιο αντίκτυπο στην αξία του μέσου όρου. Επειδή ο μέσος όρος υποτίθεται ότι αντιπροσωπεύει το κέντρο των δεδομένων, κατά μία έννοια, αυτό το ένα εξάρτημα καθιστά το μέσο άχρηστο.
Όταν αντιμετωπίζετε προβλήματα, η πιο κοινή στρατηγική είναι να τα διαγράψετε. Σε ορισμένες περιπτώσεις, ωστόσο, ίσως να θέλετε να τις λάβετε υπόψη. Σε αυτές τις περιπτώσεις, είναι συνήθως επιθυμητό να κάνετε την ανάλυσή σας δύο φορές - μία φορά με περιληπτικές τιμές και μία φορά με τις εξαιρέσεις που αποκλείονται. Αυτό σας επιτρέπει να αξιολογήσετε ποια μέθοδο δίνει πιο χρήσιμα αποτελέσματα.
Αντιμετώπιση ελλιπών τιμών
Οι ελλείπουσες τιμές είναι ένα από τα πιο συνηθισμένα (και ενοχλητικά) δεδομένα που θα συναντήσετε. Η πρώτη σας ώθηση θα ήταν να αποθέσετε αρχεία με ελλείπουσες τιμές από την ανάλυσή σας. Το πρόβλημα με αυτό είναι ότι οι ελλείπουσες τιμές συχνά δεν είναι μόνο τυχαίες ελάχιστες δυσλειτουργίες δεδομένων.
Ελέγξτε τις υποθέσεις σας για το πώς διανέμονται τα δεδομένα
Πολλές στατιστικές διαδικασίες εξαρτώνται από την υπόθεση ότι τα δεδομένα διανέμονται με κάποιο τρόπο. Εάν η υπόθεση αυτή αποτύχει, η ακρίβεια των προβλέψεών σας υποφέρει.
Η πιο συνηθισμένη υπόθεση για τις τεχνικές μοντελοποίησης που συζητήθηκαν σε αυτό το βιβλίο είναι ότι τα δεδομένα κατανέμονται κανονικά.
Ή όχι. Σε περιπτώσεις όπου τα δεδομένα δεν διανέμονται όπως χρειάζεστε, όλα δεν χάνονται απαραίτητα. Υπάρχουν διάφοροι τρόποι μετασχηματισμού των δεδομένων για να έχετε τη διανομή στο σχήμα που χρειάζεστε.
Ένας από τους καλύτερους τρόπους για να επαληθεύσετε την ακρίβεια ενός στατιστικού μοντέλου είναι να τον δοκιμάσετε ενάντια στα δεδομένα μόλις χτιστεί. Ένας τρόπος για να γίνει αυτό είναι να διαιρέσετε τυχαία το σύνολο δεδομένων σας σε δύο αρχεία. Μπορεί να καλέσετε αυτά τα αρχεία Ανάλυση και Δοκιμή, αντίστοιχα.
Θα χρειαστεί να χωρίσετε τα δεδομένα τυχαία για να είναι αποτελεσματικά. Δεν μπορείτε απλά να διαιρέσετε το σύνολο δεδομένων στο πάνω ή στο μισό, για παράδειγμα. Σχεδόν όλα τα αρχεία δεδομένων ταξινομούνται κάπως - κατά ημερομηνία, αν δεν υπάρχει τίποτε άλλο. Αυτό εισάγει συστηματικά μοντέλα που θα δίνουν διαφορετικά τμήματα του αρχείου διαφορετικές στατιστικές ιδιότητες. Όταν χωρίζετε το αρχείο τυχαία, δίνετε σε κάθε αρχείο ίσες πιθανότητες να είναι σε κάθε αρχείο. Εικονικά, ανεβάζετε ένα νόμισμα για κάθε αρχείο για να αποφασίσετε ποιο αρχείο πηγαίνει. Το randomness δίνει και τα δύο αρχεία τις ίδιες στατιστικές ιδιότητες με τα αρχικά δεδομένα.
Μόλις διαχωρίσετε το σύνολο δεδομένων, ορίστε το αρχείο δοκιμής. Στη συνέχεια, προχωρήστε στη δημιουργία του προγνωστικού σας μοντέλου χρησιμοποιώντας το αρχείο Ανάλυσης. Μόλις κατασκευαστεί το μοντέλο, εφαρμόστε το στο δοκιμαστικό αρχείο και δείτε πώς το κάνει.
Τα μοντέλα δοκιμών με αυτό τον τρόπο προστατεύουν από ένα φαινόμενο που είναι γνωστό ως υπερ-συναρμολόγηση . Ουσιαστικά, είναι δυνατό οι στατιστικές διαδικασίες να απομνημονεύουν το αρχείο δεδομένων αντί να ανακαλύπτουν σημαντικές σχέσεις μεταξύ των μεταβλητών. Εάν εμφανιστεί υπερβολική τοποθέτηση, το μοντέλο θα δοκιμάσει αρκετά κακώς στο αρχείο δοκιμής.
Δημιουργία αντιγράφων ασφαλείας και τεκμηρίωση όσων κάνετε
Επειδή το στατιστικό λογισμικό γίνεται τόσο απλό στη χρήση, είναι ένα κομμάτι κέικ για να αρχίσετε να δημιουργείτε αναφορές και γραφήματα, για να μην αναφέρουμε τα αρχεία δεδομένων.Μπορείτε να εκτελέσετε τις διαδικασίες κυριολεκτικά με το πάτημα ενός κουμπιού. Μπορείτε να δημιουργήσετε αρκετές δωδεκάδες γραφημάτων με βάση διαφορετικούς μετασχηματισμούς δεδομένων μέσα σε λίγα λεπτά. Αυτό καθιστά πολύ εύκολο να χάσετε το κομμάτι του τι κάνατε και γιατί.
Είναι σημαντικό να βεβαιωθείτε ότι διατηρείτε ένα γραπτό αρχείο για το τι έχετε να κάνετε. Τα γράμματα θα πρέπει να φέρουν την ετικέτα με το όνομα (και την έκδοση) των δεδομένων που χρησιμοποιήθηκαν για τη δημιουργία τους. Οι στατιστικές διαδικασίες που δημιουργείτε πρέπει να αποθηκευτούν και να τεκμηριωθούν.
Είναι επίσης σημαντικό να δημιουργήσετε αντίγραφα ασφαλείας των αρχείων δεδομένων σας. Κατά τη διάρκεια της ανάλυσής σας, πιθανόν να δημιουργήσετε διάφορες εκδόσεις των δεδομένων σας που αντανακλούν διάφορες διορθώσεις και μετασχηματισμούς μεταβλητών. Θα πρέπει να αποθηκεύσετε τις διαδικασίες που δημιούργησαν αυτές τις εκδόσεις. Θα πρέπει επίσης να τεκμηριώνονται με τρόπο που να περιγράφει τι μετασχηματισμούς κάνατε και γιατί.
Η τεκμηρίωση δεν είναι το αγαπημένο έργο κανενός, αλλά μιλάμε από την εμπειρία όταν σας ενθαρρύνουμε σθεναρά να μην βασίζεστε στη μνήμη σας όταν πρόκειται για έργα ανάλυσης.
Με την επεξεργασία των βημάτων που μόλις περιγράψατε μεγιστοποιείτε την αξιοπιστία των στατιστικών μοντέλων σας. Σε πολλές περιπτώσεις, η προετοιμασία είναι πραγματικά πιο χρονοβόρα από την πραγματική κατασκευή του μοντέλου. Αλλά είναι απαραίτητο. Και θα τον ευχαριστήσετε στο τέλος για τη μεθοδική του επεξεργασία.