Πίνακας περιεχομένων:
Βίντεο: Διαζύγιο, Πως Να Προετοιμάσετε Το Παιδί Σας 2024
Όταν ορίσατε τους στόχους του μοντέλου για την ανάλυση πρόβλεψης, το επόμενο βήμα είναι να προσδιορίσετε και να προετοιμάσετε τα δεδομένα που θα χρησιμοποιείτε για την κατασκευή του μοντέλου σας. Η γενική ακολουθία βημάτων μοιάζει με αυτή:
-
Προσδιορίστε τις πηγές δεδομένων σας.
Τα δεδομένα θα μπορούσαν να είναι σε διαφορετικές μορφές ή να διαμένουν σε διάφορες τοποθεσίες.
-
Προσδιορίστε τον τρόπο πρόσβασης στα δεδομένα αυτά.
Μερικές φορές, θα χρειαστεί να αποκτήσετε δεδομένα τρίτου μέρους ή δεδομένα που ανήκουν σε διαφορετικό τμήμα στον οργανισμό σας κ.λπ.
-
Εξετάστε ποιες μεταβλητές πρέπει να συμπεριλάβετε στην ανάλυσή σας.
Μια τυπική προσέγγιση είναι να ξεκινήσετε με ένα ευρύ φάσμα μεταβλητών και να εξαλείψετε εκείνες που δεν προσφέρουν τιμές πρόβλεψης για το μοντέλο.
-
Προσδιορίστε αν θα χρησιμοποιηθούν παραγόμενες μεταβλητές.
Σε πολλές περιπτώσεις, μια μεταβλητή που προκύπτει (όπως η αναλογία τιμής ανά κερδοφορία που χρησιμοποιείται για την ανάλυση των τιμών των μετοχών) θα είχε μεγαλύτερο άμεσο αντίκτυπο στο μοντέλο απ 'ό, τι η ακατέργαστη μεταβλητή.
-
Εξερευνήστε την ποιότητα των δεδομένων σας, προσπαθώντας να κατανοήσετε τόσο την κατάσταση όσο και τους περιορισμούς.
Η ακρίβεια των προβλέψεων του μοντέλου σχετίζεται άμεσα με τις μεταβλητές που επιλέγετε και την ποιότητα των δεδομένων σας. Θα θέλατε να απαντήσετε σε συγκεκριμένες ερωτήσεις συγκεκριμένων δεδομένων σε αυτό το σημείο:
-
Είναι τα δεδομένα ολοκληρωμένα;
-
Έχει κάποια απόκλιση;
-
Τα δεδομένα χρειάζονται καθαρισμό;
-
Πρέπει να συμπληρώσετε τις τιμές που λείπουν, να τις κρατήσετε όπως είναι ή να τις εξαλείψετε εντελώς;
-
Η κατανόηση των δεδομένων και των ιδιοτήτων τους μπορεί να σας βοηθήσει να επιλέξετε τον αλγόριθμο που θα είναι πιο χρήσιμος για την κατασκευή του μοντέλου σας. Για παράδειγμα:
-
Αλγόριθμοι παλινδρόμησης μπορούν να χρησιμοποιηθούν για την ανάλυση δεδομένων χρονοσειρών.
-
Αλγόριθμοι ταξινόμησης μπορούν να χρησιμοποιηθούν για την ανάλυση διακριτών δεδομένων.
-
Αλγόριθμοι σύνδεσης μπορούν να χρησιμοποιηθούν για δεδομένα με συσχετισμένα χαρακτηριστικά.
Το σύνολο δεδομένων που χρησιμοποιείται για την εκπαίδευση και τη δοκιμή του μοντέλου πρέπει να περιέχει σχετικές επιχειρηματικές πληροφορίες για να απαντήσει στο πρόβλημα που προσπαθείτε να λύσετε. Εάν ο στόχος σας είναι (για παράδειγμα) να καθορίσετε ποιος πελάτης είναι πιθανό να χτυπήσει, τότε το σύνολο δεδομένων που επιλέγετε πρέπει να περιέχει πληροφορίες σχετικά με πελάτες που έχουν αναποδογυρίσει στο παρελθόν εκτός από πελάτες που δεν το έχουν.
Ορισμένα μοντέλα που δημιουργήθηκαν για δεδομένα ορυχείων και έχουν νόημα για τις υποκείμενες σχέσεις τους - για παράδειγμα, εκείνα που κατασκευάστηκαν με αλγόριθμους ομαδοποίησης - δεν χρειάζεται να έχουν κάποιο συγκεκριμένο τελικό αποτέλεσμα.
Δύο προβλήματα προκύπτουν όταν χειρίζεστε δεδομένα δεδομένου ότι χτίζετε το μοντέλο σας: υποφόρτιση και υπερφόρτωση.
Underfitting
Underfitting είναι όταν το μοντέλο σας δεν μπορεί να ανιχνεύσει τυχόν σχέσεις στα δεδομένα σας.Αυτό είναι συνήθως μια ένδειξη ότι οι ουσιαστικές μεταβλητές - εκείνες με προγνωστική δύναμη - δεν συμπεριλήφθηκαν στην ανάλυσή σας. Για παράδειγμα, μια ανάλυση αποθεμάτων που περιλαμβάνει μόνο στοιχεία από μια αγορά ταύρων (όπου οι συνολικές τιμές των μετοχών ανεβαίνουν) δεν αντιπροσωπεύει κρίσεις ή φυσαλίδες που μπορούν να επιφέρουν σημαντικές διορθώσεις στη συνολική απόδοση των μετοχών.
Η αποτυχία να συμπεριληφθούν τα δεδομένα που καλύπτουν τόσο τα ταύρου όσο και τα φέρουν αγορές (όταν οι συνολικές τιμές των μετοχών πέφτουν) κρατά το μοντέλο να παράγει την καλύτερη δυνατή επιλογή χαρτοφυλακίου.
Υπερθέρμανση
Η υπερφόρτωση είναι όταν το μοντέλο σας περιλαμβάνει δεδομένα που δεν έχουν προβλεπτική ισχύ αλλά είναι συγκεκριμένα μόνο για το σύνολο δεδομένων που αναλύετε. Ο θόρυβος - τυχαίες παραλλαγές στο σύνολο δεδομένων - μπορεί να βρει το δρόμο του στο μοντέλο, έτσι ώστε η λειτουργία του μοντέλου σε διαφορετικό σύνολο δεδομένων προκαλεί σημαντική πτώση στην πρόβλεψη και την ακρίβεια του μοντέλου. Η συνοδευτική πλευρική γραμμή παρέχει ένα παράδειγμα.
Αν το μοντέλο σας λειτουργεί καλά σε ένα συγκεκριμένο σύνολο δεδομένων και υποβιβάζεται μόνο όταν το δοκιμάζετε σε διαφορετικό σύνολο δεδομένων, υποψιάζεστε υπερφόρτωση.