Καταφεύγουν στη διασταυρούμενη επικύρωση στη μηχανική μάθηση - ανδρείκελα

Βίντεο: Witness to War: Doctor Charlie Clements Interview 2024

Μερικές φορές, η μηχανική μάθηση απαιτεί ότι θα χρειαστεί να καταφύγετε σε διασταυρούμενη επικύρωση. Ένα αξιοσημείωτο πρόβλημα με τη διάσπαση του αμαξοστοιχίας / δοκιμής είναι ότι εισάγετε πραγματικά προκατάληψη στις δοκιμές σας, επειδή μειώνετε το μέγεθος των δεδομένων εκπαίδευσης σε δείγμα. Όταν χωρίζετε τα δεδομένα σας, μπορεί να έχετε στην πραγματικότητα κάποια χρήσιμα παραδείγματα εκτός της κατάρτισης. Επιπλέον, μερικές φορές τα δεδομένα σας είναι τόσο περίπλοκα, ώστε ένα σετ δοκιμών, παρόλο που προφανώς παρόμοιο με το σετ εκπαίδευσης, δεν είναι παρόμοια, επειδή οι συνδυασμοί τιμών είναι διαφορετικοί (κάτι που είναι χαρακτηριστικό των συνόλων δεδομένων μεγάλης διαστάσεων).

Αυτά τα θέματα προσθέτουν στην αστάθεια των αποτελεσμάτων δειγματοληψίας όταν δεν έχετε πολλά παραδείγματα. Ο κίνδυνος κατάτμησης των δεδομένων σας με δυσμενή τρόπο εξηγεί επίσης γιατί η διάσπαση αμαξοστοιχίας / δοκιμής δεν είναι η προτιμώμενη λύση από τους μηχανικούς μάθησης όταν πρέπει να αξιολογήσετε και να συντονίσετε μια λύση μηχανικής μάθησης.

Η διασταυρούμενη επικύρωση με βάση τις πτυχές k είναι στην πραγματικότητα η απάντηση. Βασίζεται σε τυχαίο διαχωρισμό, αλλά αυτή τη φορά χωρίζει τα δεδομένα σας σε έναν αριθμό k των πτυχών (τμήματα των δεδομένων σας) ίσου μεγέθους. Στη συνέχεια, κάθε πτυχή εκτυλίσσεται με τη σειρά της ως δοκιμαστικό σετ και τα άλλα χρησιμοποιούνται για προπόνηση. Κάθε επανάληψη χρησιμοποιεί μια διαφορετική πτυχή ως δοκιμή, η οποία παράγει μια εκτίμηση σφάλματος.

Γραφική αναπαράσταση του τρόπου με τον οποίο λειτουργεί η διασταυρούμενη επικύρωση.

Η διαδικασία αυτή παρέχει τα ακόλουθα πλεονεκτήματα:

Λειτουργεί καλά ανεξάρτητα από τον αριθμό των παραδειγμάτων, διότι με την αύξηση του αριθμού των χρησιμοποιημένων πτυχών, αυξάνετε το μέγεθος του εκπαιδευτικού σας σετ (μεγαλύτερο k, μειωμένη προκατάληψη) και μείωση του μεγέθους του συνόλου δοκιμών.

Οι διαφορές στη διανομή για μεμονωμένες πτυχές δεν έχουν σημασία. Όταν μια πτυχή έχει διαφορετική κατανομή σε σύγκριση με τις άλλες, χρησιμοποιείται μόνο μία φορά ως σετ δοκιμών και αναμειγνύεται με άλλους ως μέρος του εκπαιδευτικού σετ κατά τις υπόλοιπες δοκιμές.
Πραγματικά δοκιμάζετε όλες τις παρατηρήσεις, έτσι δοκιμάζετε πλήρως την υπόθεση εκμάθησης μηχανής χρησιμοποιώντας όλα τα δεδομένα που έχετε.
Λαμβάνοντας το μέσο όρο των αποτελεσμάτων, μπορείτε να περιμένετε μια πρόβλεψη απόδοσης. Επιπλέον, η τυπική απόκλιση των αποτελεσμάτων μπορεί να σας πει πόση παραλλαγή μπορείτε να περιμένετε στα πραγματικά δεδομένα εκτός δείγματος. Υψηλότερη παραλλαγή στις διασταυρωμένες παραστάσεις σας ενημερώνει για εξαιρετικά διαφορετικά δεδομένα ότι ο αλγόριθμος είναι ανίκανος να πιάσει σωστά.
Η χρήση του k-fold cross-validation είναι πάντα η βέλτιστη επιλογή εκτός εάν τα δεδομένα που χρησιμοποιείτε έχουν κάποιο είδος παραγγελίας που έχει σημασία. Για παράδειγμα, θα μπορούσε να περιλαμβάνει χρονολογικές σειρές, όπως οι πωλήσεις. Σε αυτή την περίπτωση, δεν πρέπει να χρησιμοποιήσετε μια τυχαία μέθοδο δειγματοληψίας αλλά αντ 'αυτού να βασίζεστε σε διαχωρισμό αμαξοστοιχιών / δοκιμών με βάση την αρχική ακολουθία έτσι ώστε η παραγγελία να διατηρείται και μπορείτε να δοκιμάσετε τα τελευταία παραδείγματα αυτής της παραγγελθείσας σειράς.