Βίντεο: Section 1: More Comfortable 2024
Σε έναν τέλειο κόσμο, θα μπορούσατε να εκτελέσετε μια δοκιμή στα δεδομένα που ο αλγόριθμος εκμάθησης μηχανών σας δεν έχει μάθει από πριν. Ωστόσο, η αναμονή για νέα δεδομένα δεν είναι πάντα εφικτή από πλευράς χρόνου και κόστους.
Ως πρώτη απλή θεραπεία, μπορείτε να διαιρέσετε τυχαία τα δεδομένα σας σε εκπαιδευτικά και σετ δοκιμών. Η κοινή διαίρεση είναι από 25 έως 30 τοις εκατό για τις δοκιμές και το υπόλοιπο 75 έως 70 τοις εκατό για την κατάρτιση. Διαχωρίζετε ταυτόχρονα τα δεδομένα σας που αποτελούνται από την απόκριση και τις λειτουργίες σας, διατηρώντας την αλληλογραφία μεταξύ κάθε απόκρισης και των χαρακτηριστικών της.
Η δεύτερη λύση συμβαίνει όταν πρέπει να συντονίσετε τον αλγόριθμο μάθησης. Σε αυτή την περίπτωση, τα δεδομένα διάσπασης των δοκιμών δεν αποτελούν καλή πρακτική, διότι προκαλούν ένα άλλο είδος υπερφόρτωσης που ονομάζεται snooping. Για να ξεπεράσετε το snooping, χρειάζεστε ένα τρίτο κομμάτι, το οποίο ονομάζεται σετ επικύρωσης. Μια προτεινόμενη διάσπαση είναι να έχετε τα παραδείγματα σας χωρισμένα σε τρίτα μέρη: το 70 τοις εκατό για την κατάρτιση, το 20 τοις εκατό για την επικύρωση και το 10 τοις εκατό για τις δοκιμές.
Θα πρέπει να εκτελέσετε τη διαίρεση τυχαία, δηλαδή, ανεξάρτητα από την αρχική παραγγελία των δεδομένων. Διαφορετικά, η δοκιμή σας δεν θα είναι αξιόπιστη, επειδή η παραγγελία θα μπορούσε να προκαλέσει υπερεκτίμηση (όταν υπάρχει κάποια σημαντική παραγγελία) ή υποτίμηση (όταν η διανομή διαφέρει πάρα πολύ). Ως λύση, πρέπει να διασφαλίσετε ότι η διανομή της δοκιμαστικής ομάδας δεν διαφέρει πολύ από την κατανομή της εκπαίδευσης και ότι η διαδοχική παραγγελία εμφανίζεται στα χωριστά δεδομένα.
Όταν ο αριθμός των παραδειγμάτων n είναι υψηλός, όπως n> 10, 000, μπορείτε να δημιουργήσετε με σίγουρο ένα τυχαία χωρισμένο σύνολο δεδομένων. Όταν το σύνολο δεδομένων είναι μικρότερο, συγκρίνοντας τα βασικά στατιστικά στοιχεία, όπως τον μέσο όρο, τον τρόπο λειτουργίας, τον μέσο όρο και τη διακύμανση στην απόκριση, και τα χαρακτηριστικά των σετ εκπαίδευσης και δοκιμών θα σας βοηθήσουν να καταλάβετε εάν το σετ δοκιμών είναι ακατάλληλο. Όταν δεν είστε βέβαιοι ότι ο διαχωρισμός είναι σωστός, υπολογίστε ξανά έναν καινούργιο.