Βίντεο: Data Analysis in R by Dustin Tran 2024
Πριν εκτελέσετε μια ανάλυση πρόβλεψης, θα πρέπει να βεβαιωθείτε ότι τα δεδομένα είναι καθαρά από ξένα αντικείμενα πριν να τα χρησιμοποιήσετε στο μοντέλο. Αυτό περιλαμβάνει την εύρεση και τη διόρθωση οποιωνδήποτε εγγραφών που περιέχουν εσφαλμένες τιμές και την προσπάθεια συμπλήρωσης τυχόν τιμών που λείπουν. Θα πρέπει επίσης να αποφασίσετε αν θα συμπεριλάβετε διπλότυπα αρχεία (για παράδειγμα δύο λογαριασμούς πελατών).
Ο γενικός στόχος είναι να διασφαλιστεί η ακεραιότητα των πληροφοριών που χρησιμοποιείτε για την κατασκευή του προγνωστικού σας μοντέλου. Δώστε ιδιαίτερη προσοχή στην πληρότητα, την ορθότητα και την επικαιρότητα των δεδομένων.
περιγραφικά στατιστικά (ποσοτικά χαρακτηριστικά) για διάφορα πεδία, όπως τον υπολογισμό των min και max, τον έλεγχο της κατανομής συχνότητας (πόσο συχνά συμβαίνει κάτι) και επαλήθευση των αναμενόμενων ορίων. Η εκτέλεση τακτικού ελέγχου μπορεί να σας βοηθήσει να επισημάνετε τυχόν δεδομένα που βρίσκονται εκτός του αναμενόμενου εύρους για περαιτέρω διερεύνηση. Κάθε εγγραφή που δείχνει συνταξιούχους με ημερομηνίες γέννησης στη δεκαετία του 1990 μπορεί να επισημανθεί με αυτή τη μέθοδο.στοιχεία δεδομένων (ανάλυση της διαθεσιμότητας δεδομένων και συλλογή στατιστικών σχετικά με την ποιότητα των δεδομένων) και εργαλεία απεικόνισης. Τα δεδομένα που λείπουν ενδέχεται να οφείλονται στο γεγονός ότι δεν έχουν καταγραφεί συγκεκριμένες πληροφορίες. Σε μια τέτοια περίπτωση, μπορείτε να προσπαθήσετε να συμπληρώσετε όσο μπορείτε. οι κατάλληλες προεπιλογές μπορούν εύκολα να προστεθούν για να γεμίσουν τα κενά των συγκεκριμένων πεδίων.
Ένας κωδικός ταχυδρομείου που λείπει για μια διεύθυνση μπορεί να συναχθεί από το όνομα του δρόμου και την πόλη που παρέχεται σε αυτή τη διεύθυνση.
Στις περιπτώσεις όπου η πληροφορία είναι άγνωστη ή δεν μπορεί να συναχθεί, τότε θα πρέπει να χρησιμοποιήσετε τιμές
άλλες από ένα κενό χώρο για να υποδείξετε ότι τα δεδομένα λείπουν χωρίς να επηρεαστεί η ορθότητα της ανάλυσης. Ένα κενό στα δεδομένα μπορεί να σημαίνει πολλαπλά πράγματα, τα περισσότερα από τα οποία δεν είναι καλά ή χρήσιμα. Κάθε φορά που μπορείτε, θα πρέπει να καθορίσετε τη φύση του εν λόγω κενό από το νόημα πλήρωσης. Ακριβώς όπως είναι δυνατόν να ορίσουμε ένα τριαντάφυλλο σε ένα καλαμπόκι ως ζιζάνιο, οι αποκλίσεις μπορεί να σημαίνουν διαφορετικά πράγματα σε διαφορετικές αναλύσεις.Είναι συνηθισμένο ορισμένα μοντέλα να χτίζονται αποκλειστικά για να παρακολουθούν εκείνα τα αποθέματα και να τα σημαίνουν.
Τα μοντέλα ανίχνευσης της απάτης και η παρακολούθηση εγκληματικών δραστηριοτήτων ενδιαφέρονται για αυτές τις υπερβολικές τιμές, οι οποίες σε τέτοιες περιπτώσεις υποδεικνύουν κάτι ανεπιθύμητο. Συνεπώς, συνιστάται η διατήρηση των απομειώσεων στο σύνολο δεδομένων σε περιπτώσεις όπως αυτές. Ωστόσο, όταν οι αέργες θεωρούνται ανωμαλίες εντός των δεδομένων - και θα παραμορφώσουν τις αναλύσεις και θα οδηγήσουν σε εσφαλμένα αποτελέσματα - θα τα απομακρύνουν από τα δεδομένα σας.
Η αλληλοεπικάλυψη των δεδομένων μπορεί επίσης να είναι χρήσιμη ή ενοχλητική. ορισμένα από αυτά μπορεί να είναι απαραίτητα, μπορούν να υποδηλώνουν αξία και μπορούν να αντικατοπτρίζουν μια ακριβή κατάσταση των δεδομένων. Για παράδειγμα, μια εγγραφή πελάτη με πολλαπλούς λογαριασμούς μπορεί να αναπαρασταθεί με πολλαπλές καταχωρήσεις που είναι (τεχνικά, ούτως ή άλλως) διπλές και επαναλαμβανόμενες των ίδιων εγγραφών.
Με τον ίδιο τρόπο, όταν οι διπλές εγγραφές δεν συμβάλλουν στην ανάλυση και δεν είναι απαραίτητες, τότε η κατάργησή τους μπορεί να έχει τεράστια αξία. Αυτό ισχύει ιδιαίτερα για τα μεγάλα σύνολα δεδομένων, όπου η αφαίρεση διπλών εγγραφών μπορεί να απλοποιήσει την πολυπλοκότητα των δεδομένων και να μειώσει τον χρόνο που απαιτείται για την ανάλυση.
Μπορείτε να αποτρέψετε προληπτικά τα λανθασμένα δεδομένα να εισέλθουν στα συστήματά σας υιοθετώντας μερικές συγκεκριμένες διαδικασίες:
Έλεγχοι ποιότητας του ιδρύματος και επικύρωση δεδομένων για όλα τα δεδομένα που συλλέγονται.
-
Επιτρέψτε στους πελάτες σας να επικυρώνουν και να αυτο-διορθώνουν τα προσωπικά τους δεδομένα.
-
Παρέχετε στους πελάτες σας πιθανές και αναμενόμενες τιμές από τις οποίες μπορείτε να επιλέξετε.
-
Ελέγχετε τακτικά τους ελέγχους της ακεραιότητας, της συνέπειας και της ακρίβειας των δεδομένων.