Πίνακας περιεχομένων:
- Πώς να χρησιμοποιήσετε διασταυρούμενη επικύρωση
- Πώς να ζυγοσταθμίστε την απόκλιση και τη διακύμανση
- Πώς να αντιμετωπίσετε ιδέες
Βίντεο: Visualizing the Riemann hypothesis and analytic continuation 2024
Για να μπορέσετε να δοκιμάσετε το μοντέλο ανάλυσης πρόβλεψης που δημιουργήσατε, θα πρέπει να διαιρέσετε το σύνολο δεδομένων σας σε δύο ομάδες: σύνολα δεδομένων κατάρτισης και δοκιμών. Αυτά τα σύνολα δεδομένων θα πρέπει να επιλέγονται τυχαία και θα πρέπει να είναι μια καλή αναπαράσταση του πραγματικού πληθυσμού.
-
Παρόμοια δεδομένα θα πρέπει να χρησιμοποιούνται τόσο για τα σύνολα δεδομένων κατάρτισης όσο και για τα σύνολα δοκιμών.
-
Κανονικά το σύνολο δεδομένων κατάρτισης είναι σημαντικά μεγαλύτερο από το σύνολο δεδομένων δοκιμής.
-
Η χρήση του συνόλου δεδομένων δοκιμής σας βοηθά να αποφύγετε σφάλματα όπως υπερκατασκευή.
-
Το εκπαιδευμένο μοντέλο τρέχει σε δεδομένα δοκιμών για να δούμε πόσο καλά θα εκτελεστεί το μοντέλο.
Μερικοί επιστήμονες δεδομένων προτιμούν να έχουν ένα τρίτο σύνολο δεδομένων που έχει χαρακτηριστικά παρόμοια με αυτά των δύο πρώτων: σύνολο δεδομένων επικύρωσης . Η ιδέα είναι ότι εάν χρησιμοποιείτε ενεργά τα δεδομένα δοκιμής σας για να βελτιώσετε το μοντέλο σας, θα πρέπει να χρησιμοποιήσετε ένα ξεχωριστό (τρίτο) σετ για να ελέγξετε την ακρίβεια του μοντέλου.
Έχοντας ένα σύνολο δεδομένων επικύρωσης, το οποίο δεν χρησιμοποιήθηκε ως μέρος της διαδικασίας ανάπτυξης του μοντέλου σας, βοηθά στην εξασφάλιση μιας ουδέτερης εκτίμησης της ακρίβειας και της αποτελεσματικότητας του μοντέλου.
Εάν έχετε δημιουργήσει πολλαπλά μοντέλα χρησιμοποιώντας διάφορους αλγόριθμους, το δείγμα επικύρωσης μπορεί επίσης να σας βοηθήσει να αξιολογήσετε ποιο μοντέλο εκτελεί καλύτερα.
Βεβαιωθείτε ότι έχετε ελέγξει διπλά το έργο σας που αναπτύσσεται και δοκιμάζει το μοντέλο. Συγκεκριμένα, να είστε σκεπτικοί εάν η απόδοση ή η ακρίβεια του μοντέλου φαίνεται υπερβολικά καλή ώστε να είναι αλήθεια. Σφάλματα μπορεί να συμβούν εκεί όπου τα περιμένετε λιγότερο. Ο εσφαλμένος υπολογισμός ημερομηνιών για δεδομένα χρονολογικών σειρών, για παράδειγμα, μπορεί να οδηγήσει σε εσφαλμένα αποτελέσματα.
Πώς να χρησιμοποιήσετε διασταυρούμενη επικύρωση
Η διασταυρούμενη επικύρωση είναι μια δημοφιλής τεχνική που μπορείτε να χρησιμοποιήσετε για να αξιολογήσετε και να επικυρώσετε το μοντέλο σας. Η ίδια αρχή της χρήσης ξεχωριστών συνόλων δεδομένων για δοκιμές και εκπαίδευση ισχύει εδώ: Τα δεδομένα εκπαίδευσης χρησιμοποιούνται για την κατασκευή του μοντέλου. το μοντέλο τρέχει εναντίον του σετ δοκιμών για την πρόβλεψη δεδομένων που δεν έχει ξαναδεί, πράγμα που είναι ένας τρόπος για να αξιολογήσει την ακρίβειά του.
Σε διασταυρούμενη επικύρωση, τα ιστορικά δεδομένα χωρίζονται σε αριθμούς Χ υποομάδων. Κάθε φορά που επιλέγεται ένα υποσύνολο για να χρησιμοποιηθεί ως δεδομένα δοκιμής, τα υπόλοιπα υποσύνολα χρησιμοποιούνται ως δεδομένα εκπαίδευσης. Στη συνέχεια, στο επόμενο τρέξιμο, το προηγούμενο σετ δοκιμών γίνεται ένα από τα σετ εκπαίδευσης και ένα από τα προηγούμενα σετ εκπαίδευσης γίνεται το σετ δοκιμών.
Η διαδικασία συνεχίζεται μέχρις ότου κάθε υποσύνολο αυτού του αριθμού Χ συνόλων χρησιμοποιήθηκε ως σετ δοκιμών.
Για παράδειγμα, φανταστείτε ότι έχετε ένα σύνολο δεδομένων που έχετε χωρίσει σε 5 σύνολα αριθμημένα από 1 έως 5. Στην πρώτη εκτέλεση, χρησιμοποιείτε το σύνολο 1 ως σύνολο δοκιμών και χρησιμοποιείτε τα σύνολα 2, 3, 4 και 5 ως σύνολο εκπαίδευσης.Στη συνέχεια, στη δεύτερη σειρά, χρησιμοποιείτε το σετ 2 ως σύνολο δοκιμών και ορίζετε 1, 3, 4 και 5 ως σύνολο εκπαίδευσης.
Συνεχίζετε αυτή τη διαδικασία μέχρι να χρησιμοποιηθεί κάθε υποσύνολο των 5 σετ ως δοκιμαστικό σετ.
Η διασταυρούμενη επικύρωση σάς επιτρέπει να χρησιμοποιείτε κάθε σημείο δεδομένων στα ιστορικά σας δεδομένα τόσο για εκπαίδευση όσο και για δοκιμές. Αυτή η τεχνική είναι πιο αποτελεσματική από τη διάσπαση των ιστορικών δεδομένων σε δύο σύνολα, χρησιμοποιώντας το σύνολο με τα περισσότερα δεδομένα για εκπαίδευση, χρησιμοποιώντας το άλλο σετ για έλεγχο και αφήνοντας το σε αυτό.
Όταν επικυρώνετε τα δεδομένα σας, προστατεύετε τον εαυτό σας από την τυχαία επιλογή δεδομένων δοκιμών που είναι πολύ εύκολο να προβλεφθεί - κάτι που θα σας έδινε την εσφαλμένη εντύπωση ότι το μοντέλο σας είναι ακριβές. Ή, αν τυχαίνει να επιλέξετε δεδομένα δοκιμών που είναι πολύ δύσκολο να προβλέψετε, μπορεί εσφαλμένα να συμπεράνει κανείς ότι το μοντέλο σας δεν έχει απόδοση όπως ελπίζατε.
Η διασταυρούμενη επικύρωση χρησιμοποιείται ευρέως όχι μόνο για την επικύρωση της ακρίβειας των μοντέλων αλλά και για τη σύγκριση των επιδόσεων των πολλαπλών μοντέλων.
Πώς να ζυγοσταθμίστε την απόκλιση και τη διακύμανση
Η παραμόρφωση και η διακύμανση είναι δύο πηγές σφαλμάτων που μπορούν να λάβουν χώρα καθώς δημιουργείτε το αναλυτικό σας μοντέλο.
Το Bias είναι το αποτέλεσμα της δημιουργίας ενός μοντέλου που απλοποιεί σημαντικά την παρουσίαση των σχέσεων μεταξύ σημείων δεδομένων στα ιστορικά δεδομένα που χρησιμοποιούνται για την κατασκευή του μοντέλου.
Η απόκλιση είναι το αποτέλεσμα της δημιουργίας ενός μοντέλου που είναι σαφώς συγκεκριμένο για τα δεδομένα που χρησιμοποιούνται για την κατασκευή του μοντέλου.
Η επίτευξη ισορροπίας ανάμεσα στη μεροληψία και τη διακύμανση - με τη μείωση της διακύμανσης και την υπέρμετρη μεροληψία - μπορεί να οδηγήσει σε ένα πιο προγνωστικό μοντέλο. Αυτή η συρρίκνωση συνήθως οδηγεί στη δημιουργία λιγότερο σύνθετων προγνωστικών μοντέλων.
Πολλοί αλγόριθμοι εξόρυξης δεδομένων έχουν δημιουργηθεί για να λάβουν υπόψη αυτό το αντιστάθμισμα μεταξύ της μεροληψίας και της διακύμανσης.
Πώς να αντιμετωπίσετε ιδέες
Όταν δοκιμάζετε το μοντέλο σας και βρίσκεστε πουθενά, εδώ είναι μερικές ιδέες που θα σας βοηθήσουν να επανέλθετε στο σωστό δρόμο:
-
Πάντα να κάνετε διπλό έλεγχο της εργασίας σας. Μπορεί να έχετε παραβλέψει κάτι που υποθέσατε ότι ήταν σωστό, αλλά δεν είναι. Τέτοια ελαττώματα θα μπορούσαν να εμφανιστούν (για παράδειγμα) μεταξύ των τιμών μιας πρόβλεψης μεταβλητής στο σύνολο δεδομένων σας, ή στην προεπεξεργασία που εφαρμόσατε στα δεδομένα.
-
Εάν ο αλγόριθμος που επιλέξατε δεν αποφέρει κανένα αποτέλεσμα, δοκιμάστε έναν άλλο αλγόριθμο. Για παράδειγμα, δοκιμάζετε διάφορους αλγορίθμους ταξινόμησης που είναι διαθέσιμοι και ανάλογα με τα δεδομένα σας και τους επιχειρηματικούς στόχους του μοντέλου σας, μία από αυτές μπορεί να αποδίδει καλύτερα από τα υπόλοιπα.
-
Δοκιμάστε να επιλέξετε διαφορετικές μεταβλητές ή να δημιουργήσετε νέες παραγόμενες μεταβλητές. Να είστε πάντοτε στην επιφυλακή για μεταβλητές που έχουν δυνατότητες πρόβλεψης.
-
Συχνά συμβουλευτείτε τους ειδικούς του τομέα των επιχειρήσεων που μπορούν να σας βοηθήσουν να κατανοήσετε τα δεδομένα, να επιλέξετε μεταβλητές και να ερμηνεύσετε τα αποτελέσματα του μοντέλου.