Πίνακας περιεχομένων:
- Έλεγχος των πηγών σας
- Όπως αναφέρθηκε προηγουμένως σε αυτό το κεφάλαιο, ένα από τα πράγματα που θα σας παρέχουν τα μεταδεδομένα σας είναι κάποια ένδειξη για τη μορφοποίηση των δεδομένων. Με μορφοποιημένο
- Ένα από τα πιο κρίσιμα βήματα κατά την πραγματοποίηση μιας στατιστικής ανάλυσης είναι να βεβαιωθείτε ότι τα δεδομένα σας είναι αυτό που υποτίθεται ότι είναι. Οι στατιστικές διαδικασίες θα καταστραφούν πάντοτε εάν δεν τους παρέχετε έγκυρες πληροφορίες σχετικά με τις μορφές δεδομένων. Αλλά αυτές οι διαδικασίες είναι σε μεγάλο βαθμό τυφλές σε προβλήματα σχετικά με την εγκυρότητα των δεδομένων.
Βίντεο: Gio Dreveli VS AnotherMakeupWorld (Part 2!) ? 2024
Τα περισσότερα σύνολα δεδομένων έρχονται με κάποιο είδος μεταδεδομένων, που είναι ουσιαστικά μια περιγραφή των δεδομένων στο αρχείο. Τα μεταδεδομένα τυπικά περιλαμβάνουν περιγραφές των μορφών, μερικές ενδείξεις για ποιες τιμές είναι σε κάθε πεδίο δεδομένων και τι σημαίνουν αυτές οι τιμές.
Όταν αντιμετωπίζετε ένα νέο σύνολο δεδομένων, μην πάρετε ποτέ τα μεταδεδομένα στην ονομαστική τους αξία. Η ίδια η φύση των μεγάλων δεδομένων απαιτεί τα συστήματα που την παράγουν να διατηρούνται και να λειτουργούν όσο το δυνατόν περισσότερο. Για το λόγο αυτό, η ενημέρωση των μεταδεδομένων για αυτά τα συστήματα κατά την υλοποίηση των αλλαγών δεν είναι πάντα η πρώτη προτεραιότητα. Θα πρέπει να επιβεβαιώσετε ότι τα δεδομένα είναι πραγματικά όπως τα μεταδεδομένα αξιώσεις.
Έλεγχος των πηγών σας
Όπως είναι προφανές όσο μπορεί να ακούγεται, είναι σημαντικό να έχετε πίστη στο σημείο από το οποίο προέρχονται τα δεδομένα σας. Αυτό είναι ιδιαίτερα σημαντικό όταν αγοράζετε δεδομένα. Χιλιάδες πωλητές εκεί έξω προσφέρουν κάθε φανταστικό είδος δεδομένων. Και δεν είναι όλοι ίσοι αξιοπιστία.
Πριν αγοράσετε δεδομένα, προσπαθήστε να καταλάβετε ακριβώς πού και πώς ο πωλητής τη συλλέγει. Η μυστηριότητα και η ασάφεια είναι κόκκινες σημαίες.
Μην πάρετε τους πωλητές στη λέξη τους. Μην βασίζεστε αποκλειστικά σε δημοσιεύσεις ικανοποίησης πελατών στην ιστοσελίδα ή σε αναφορές πελατών που παρέχονται από τον προμηθευτή. Εάν είναι δυνατόν, προσπαθήστε να εντοπίσετε κάποιον που χρησιμοποιεί ή έχει χρησιμοποιήσει τα δεδομένα.
Αν τα δεδομένα σας προέρχονται από εσωτερικά συστήματα, είναι ακόμα σημαντικό να αξιολογήσετε τις πηγές. Τα διαφορετικά συστήματα έχουν διαφορετικούς σκοπούς και ως εκ τούτου επικεντρώνονται σε διαφορετικά δεδομένα. Μπορούν επίσης να συλλέγουν δεδομένα σε διαφορετικές χρονικές στιγμές.
Τώρα, ας υποθέσουμε ότι εκτελείτε μια ανάλυση των εσόδων των ξενοδοχείων ανά πόλη. Είναι πολύ σημαντικό να γνωρίζετε ότι τα δεδομένα σχετικά με την τιμή δωματίου προέρχονται από το σύστημα ρεσεψιόν και όχι από το σύστημα κράτησης θέσεων. Αλλά τι γίνεται αν προσπαθείτε να αναλύσετε πόσες κρατήσεις δημιουργήθηκαν από το εμπορικό σήμα Super Bowl της εταιρείας σας; Σε αυτήν την περίπτωση, θέλετε να δείτε δεδομένα από το σύστημα κρατήσεων.Το παράδειγμα του ξενοδοχείου δείχνει ότι ακόμη και τα εγγενώς καθαρά δεδομένα μπορεί να είναι προβληματικά. Ακόμη και αν τα δεδομένα είναι ακριβή και ακριβώς αυτό που υποτίθεται ότι είναι, το χρονοδιάγραμμα μπορεί να είναι ένα ζήτημα.Τα δεδομένα αλλάζουν με την πάροδο του χρόνου.
Επαλήθευση μορφοτύπων
Όπως αναφέρθηκε προηγουμένως σε αυτό το κεφάλαιο, ένα από τα πράγματα που θα σας παρέχουν τα μεταδεδομένα σας είναι κάποια ένδειξη για τη μορφοποίηση των δεδομένων. Με μορφοποιημένο
, εννοούμε πώς φαίνεται κάθε συγκεκριμένο στοιχείο δεδομένων. Είναι "Κωδικός Προϊόντος" ένας χαρακτήρας ή ένας αριθμός; Είναι η "Ημερομηνία έναρξης" μια ημερομηνία ή είναι πραγματικά μια σφραγίδα ημερομηνίας; Οι τύποι δεδομένων είναι σημαντικοί στη στατιστική ανάλυση, διότι υπαγορεύουν ποιες στατιστικές και στατιστικές διαδικασίες μπορούν να εφαρμοστούν σε ποια στοιχεία δεδομένων. Αν προσπαθήσετε να πάρετε τη μέση τιμή ενός πεδίου χαρακτήρων όπως "First Name", θα λάβετε κάθε φορά ένα μήνυμα σφάλματος.
Συνήθως, αυτός ο τύπος μεταδεδομένων είναι αρκετά ακριβής. Είναι γενικά αποθηκευμένο από το σύστημα που κατέχει τα δεδομένα και μπορεί να δημιουργηθεί αυτόματα. Η επαλήθευση των μορφών είναι γενικά αρκετά απλή. Αυτή η επαλήθευση είναι ουσιαστικά ένα υποπροϊόν της επικύρωσης των περιοχών δεδομένων που εξετάζονται στην επόμενη ενότητα. Αλλά υπάρχουν περιπτώσεις όπου μπορεί να είναι λίγο πιο δύσκολο.
Έχουμε δει ένα τέτοιο σενάριο περισσότερες φορές από όσο θυμόμαστε να θυμηθούμε. Συμβαίνει μερικές φορές ότι όταν ένα σύστημα σχεδιαστεί για πρώτη φορά, η ομάδα ανάπτυξης προσπαθεί να βάλει κάποια ευελιξία στις δομές δεδομένων για να ικανοποιήσει μελλοντικές βελτιώσεις. Μερικές φορές προσθέτουν μόνο ένα σωρό από κενές (και ευρείες) στήλες αλφαριθμητικών δεδομένων στο τέλος κάθε εγγραφής. Αυτές οι βοηθητικές στήλες αρχικά δεν χρησιμοποιούνται για τίποτα.
Οι αναλυτές θα κάνουν πάντα λάθος από την πλευρά να ζητούν περισσότερα δεδομένα παρά λιγότερα - συχνά
όλα τα δεδομένα αντί για μερικά. Το γεγονός αυτό, σε συνδυασμό με την ανάγκη ταχείας λήψης δεδομένων, οδηγεί μερικές φορές σε μια απόρριψη δεδομένων . Αυτή η χωματερή περιλαμβάνει γενικά τις βοηθητικές στήλες. Σε αυτές τις περιπτώσεις, τα μεταδεδομένα σας λένε κάτι όπως "Τα πεδία 1-11" είναι μορφοποιημένα ως "200 αλφαριθμητικούς χαρακτήρες. " Οι πληροφορίες αυτές είναι πρακτικά άχρηστες. Για να έχετε νόημα για ένα πεδίο δεδομένων όπως αυτό, θα πρέπει λίγο να βγάλετε τα χέρια σας βρώμικα. Δεν υπάρχει τίποτα που μπορείτε να κάνετε εκτός από τη σελίδα μέσω μερικών δεκάδων αρχείων και προσπαθήστε να κάνετε μια ενημερωμένη μαντέψουν για το τι είναι πραγματικά στον τομέα. Στις περισσότερες περιπτώσεις, αυτά τα πεδία τείνουν να είναι κενά. Αλλά όχι πάντα. Τα καλά νέα είναι ότι αν το πεδίο είναι στην πραγματικότητα χρησιμοποιείται, θα πρέπει να μπορείτε να βρείτε έναν προγραμματιστή κάπου που ξέρει τι χρησιμοποιείται.
Πληκτρολογήστε τα δεδομένα σας
Ένα από τα πιο κρίσιμα βήματα κατά την πραγματοποίηση μιας στατιστικής ανάλυσης είναι να βεβαιωθείτε ότι τα δεδομένα σας είναι αυτό που υποτίθεται ότι είναι. Οι στατιστικές διαδικασίες θα καταστραφούν πάντοτε εάν δεν τους παρέχετε έγκυρες πληροφορίες σχετικά με τις μορφές δεδομένων. Αλλά αυτές οι διαδικασίες είναι σε μεγάλο βαθμό τυφλές σε προβλήματα σχετικά με την εγκυρότητα των δεδομένων.
Η κατανόηση του τρόπου μορφοποίησης ενός πεδίου δεδομένων δεν αρκεί. Πριν μετατρέψετε ένα σύνολο δεδομένων σε μια στατιστική διαδικασία, θα πρέπει να καταλάβετε τι πραγματικά είναι τα δεδομένα σε κάθε πεδίο που χρησιμοποιείτε.
Τα περισσότερα δεδομένα εμπίπτουν σε μία από τις τέσσερις κατηγορίες: ονομαστική, σειρά, διάστημα και αναλογία.Ο τύπος δεδομένων καθορίζει ποιο είδος στατιστικών και στατιστικών διαδικασιών μπορεί να εφαρμοστεί σε συγκεκριμένα πεδία δεδομένων. Δεν μπορείτε να πάρετε κατά μέσο όρο ένα πεδίο όπως "Επίθετο", για παράδειγμα.
Η σύγχυση των τύπων δεδομένων με τις μορφές δεδομένων είναι εύκολη (και πολύ συνηθισμένη). Εάν γνωρίζετε αν ένα πεδίο δεδομένων είναι ένας χαρακτήρας, ακέραιος ή συνεχής, δεν σας λέει τον τύπο δεδομένων.
Τα πεδία χαρακτήρων χρησιμοποιούνται μερικές φορές ως σύμβολα κράτησης θέσης για δεδομένα που ενδέχεται να ληφθούν σε μελλοντικές εκδόσεις ενός συστήματος. Δεν υπάρχει τίποτα που να εμποδίζει τη χρήση ενός τέτοιου πεδίου για τη συλλογή νομισματικών ή άλλων αριθμητικών δεδομένων.
Το πιο συνηθισμένο λάθος τύπου δεδομένων περιλαμβάνει την υπόθεση ότι ένα αριθμητικό πεδίο, ιδιαίτερα ένα πεδίο με ακέραια αξία, περιέχει πραγματικά αριθμητικά δεδομένα
. Είναι εξαιρετικά κοινό οι εταιρείες να χρησιμοποιούν αριθμητικούς κωδικούς ( ονομαστικές δεδομένα) για να αντιπροσωπεύουν προϊόντα, περιοχές, καταστήματα και διάφορες άλλες οντότητες. Οι κωδικοί πτήσης αεροπορικής εταιρείας αποτελούν ένα παράδειγμα. Οι περιοχές απογραφής είναι άλλες. Ακόμη και οι αριθμοί πιστωτικής κάρτας και κοινωνικής ασφάλισης αποθηκεύονται συνήθως ως ακέραιοι αριθμοί. Αλλά όλες αυτές οι οντότητες είναι απλά αναγνωριστικά. Πρόκειται για μεταβλητές
ονομαστικές . Ο μέσος όρος της πιστωτικής κάρτας στο χαρτοφυλάκιο μιας τράπεζας είναι ένα άσκοπο στατιστικό στοιχείο.