Πίνακας περιεχομένων:
Βίντεο: ΠΛΗΡΟΦΟΡΙΕΣ ΓΙΑ ΦΟΙΤΗΤΕΣ ΣΤΗΝ ΠΑΤΡΑ 2024
Ένα από τα πιο συνηθισμένα και πιο δύσκολα δεδομένα που αντιμετωπίζουμε είναι η έλλειψη δεδομένων. Τα αρχεία ενδέχεται να είναι ελλιπή, επειδή καταγράφηκαν αρχεία ή συμπληρώθηκε μια συσκευή αποθήκευσης. Ή ορισμένα πεδία δεδομένων ενδέχεται να μην περιέχουν δεδομένα για ορισμένα αρχεία. Το πρώτο από αυτά τα προβλήματα μπορεί να διαγνωστεί απλώς με την επαλήθευση της καταμέτρησης αρχείων για τα αρχεία. Το δεύτερο πρόβλημα είναι πιο δύσκολο να αντιμετωπιστεί.
Για να το θέσετε με απλούς όρους, όταν βρείτε ένα πεδίο που περιέχει ελλείπουσες τιμές, έχετε δύο επιλογές:
-
Αγνοήστε το.
-
Βάλτε κάτι στο πεδίο.
Παράβλεψη του προβλήματος
Σε ορισμένες περιπτώσεις, μπορείτε απλά να βρείτε ένα μόνο πεδίο με μεγάλο αριθμό ελλειπουσών τιμών. Αν ναι, το πιο εύκολο πράγμα είναι να αγνοήσετε ακριβώς το πεδίο. Μην το συμπεριλάβετε στην ανάλυσή σας.
Ένας άλλος τρόπος να αγνοήσετε το πρόβλημα είναι να αγνοήσετε την εγγραφή. Απλά διαγράψτε την εγγραφή που περιέχει τα δεδομένα που λείπουν. Αυτό μπορεί να έχει νόημα αν υπάρχουν μόνο λίγα αρχεία απατεώνων. Αλλά εάν υπάρχουν πολλαπλά πεδία δεδομένων που περιέχουν σημαντικούς αριθμούς ελλειπουσών τιμών, αυτή η προσέγγιση μπορεί να συρρικνώσει τον αριθμό των εγγραφών σας σε ένα απαράδεκτο επίπεδο.
Ένα άλλο πράγμα που πρέπει να προσέξουμε πριν απλά να διαγράψουμε τα αρχεία είναι οποιοδήποτε σημάδι ενός σχεδίου. Για παράδειγμα, ας υποθέσουμε ότι αναλύετε ένα σύνολο δεδομένων σχετικά με τα υπόλοιπα πιστωτικών καρτών σε εθνικό επίπεδο. Μπορείτε να βρείτε μια ολόκληρη δέσμη αρχείων που δείχνουν $ 0. 00 ισορροπίες (ίσως περίπου το ήμισυ των αρχείων). Αυτό δεν αποτελεί από μόνο του ένδειξη έλλειψης δεδομένων. Ωστόσο, εάν όλα τα αρχεία από, ας πούμε, την Καλιφόρνια δείχνουν $ 0. 00, γεγονός που υποδεικνύει ένα πρόβλημα πιθανών ελλείψεων τιμών. Και δεν είναι ένα που θα λυθεί χρήσιμα διαγράφοντας όλα τα αρχεία από το μεγαλύτερο κράτος της χώρας. Σε αυτήν την περίπτωση, είναι πιθανώς ένα ζήτημα συστημάτων και υποδεικνύει ότι πρέπει να δημιουργηθεί ένα νέο αρχείο.
Γενικά, η διαγραφή αρχείων είναι μια εύκολη, αλλά όχι ιδανική, λύση για προβλήματα που λείπουν. Εάν το πρόβλημα είναι σχετικά μικρό και δεν υπάρχει διακριτό μοτίβο στις παραλείψεις, τότε μπορεί να είναι εντάξει να εκτοξεύσετε τα παραβατικά αρχεία και να προχωρήσετε. Αλλά συχνά δικαιολογείται μια πιο γρήγορη προσέγγιση.
Συμπλήρωση των δεδομένων που λείπουν
Η συμπλήρωση των ελλειπουσών δεδομένων ισοδυναμεί με την εκπόνηση μιας φανταστικής εικασίας για το τι θα υπήρχε σε αυτόν τον τομέα. Υπάρχουν καλοί και κακοί τρόποι για να γίνει αυτό. Μια απλή (αλλά κακή) προσέγγιση είναι να αντικαταστήσει τις ελλείπουσες τιμές με το μέσο όρο των μη-λείπουν. Σε μη-αριθμητικά πεδία, ίσως μπείτε στον πειρασμό να συμπληρώσετε τις ελλείπουσες εγγραφές με την πιο κοινή τιμή στις άλλες εγγραφές (τη λειτουργία).
Αυτές οι προσεγγίσεις, δυστυχώς, εξακολουθούν να χρησιμοποιούνται συχνά σε ορισμένες επιχειρηματικές εφαρμογές.Αλλά θεωρούνται ευρέως από τους στατιστικολόγους ως κακές ιδέες. Πρώτον, το όλο θέμα της στατιστικής ανάλυσης είναι η εύρεση δεδομένων που διαφοροποιούν ένα αποτέλεσμα από το άλλο. Αν αντικαταστήσετε όλες τις ελλείπουσες εγγραφές με την ίδια τιμή, δεν έχετε διαφοροποιήσει τίποτα.
Όσο περισσότερο προσεγγίζουμε το highbrow είναι να προσπαθήσουμε να βρούμε έναν τρόπο να προβλέψουμε κατά τρόπο ουσιαστικό ποια αξία πρέπει να συμπληρωθεί σε κάθε ρεκόρ που λείπει από μια αξία. Αυτό περιλαμβάνει την εξέταση των πλήρων αρχείων και την προσπάθεια να βρεθούν ενδείξεις ως προς το τι μπορεί να είναι η ελλείπουσα τιμή.
Ας υποθέσουμε ότι αναλύετε ένα δημογραφικό αρχείο για να προβλέψετε τους πιθανούς αγοραστές ενός από τα προϊόντα σας. Σε αυτό το αρχείο έχετε, μεταξύ άλλων, πληροφορίες σχετικά με την οικογενειακή κατάσταση, τον αριθμό των παιδιών και τον αριθμό των αυτοκινήτων. Για κάποιο λόγο, ο αριθμός των πεδίων αυτοκινήτων λείπει στο ένα τρίτο των αρχείων.
Αν αναλύσετε τα άλλα δύο πεδία - την οικογενειακή κατάσταση και τον αριθμό των παιδιών - μπορείτε να ανακαλύψετε ορισμένα πρότυπα. Οι απλοί άνθρωποι τείνουν να έχουν ένα αυτοκίνητο. Οι παντρεμένοι άνθρωποι χωρίς παιδιά τείνουν να έχουν δύο αυτοκίνητα. Οι παντρεμένοι με περισσότερα από ένα παιδιά ενδέχεται να έχουν περισσότερες πιθανότητες να έχουν τρία αυτοκίνητα. Με αυτόν τον τρόπο, μπορείτε να μαντέψετε τις τιμές που λείπουν με τρόπο που πραγματικά διαφοροποιεί τα αρχεία. Περισσότερα για αυτή την προσέγγιση.
Υπάρχει ένας γενικός όρος στις στατιστικές και στην επεξεργασία δεδομένων που αναφέρεται σε αμφισβητήσιμα δεδομένα. Ο όρος θορυβώδης χρησιμοποιείται για την περιγραφή δεδομένων που είναι αναξιόπιστα, διεφθαρμένα ή διαφορετικά λιγότερο από τα παρθένα. Τα δεδομένα που λείπουν είναι μόνο ένα παράδειγμα αυτού. Μια λεπτομερής περιγραφή των τεχνικών καθαρισμού των θορυβωδών δεδομένων γενικά είναι πέρα από το πεδίο εφαρμογής αυτού του βιβλίου. Στην πραγματικότητα, αυτό είναι ένας ενεργός τομέας της έρευνας στη στατιστική θεωρία. Το γεγονός ότι όλος ο θόρυβος δεν είναι τόσο εύκολος να εντοπίσει όσο οι ελλείπουσες τιμές το καθιστούν ενοχλητικό να αντιμετωπίσει.