Βίντεο: Ben Saunders: To the South Pole and back — the hardest 105 days of my life 2024
Ακόμη και αν έχετε αρκετά παραδείγματα στο χέρι για την κατάρτιση τόσο απλών όσο και πολύπλοκων αλγορίθμων μηχανικής μάθησης, πρέπει να παρουσιάζουν πλήρεις τιμές στις λειτουργίες τα ελλείποντα δεδομένα. Έχοντας ένα ελλιπές παράδειγμα καθιστά αδύνατη τη σύνδεση όλων των σημάτων εντός και μεταξύ των λειτουργιών. Οι τιμές που λείπουν επίσης δυσκολεύουν τον αλγόριθμο να μάθει κατά τη διάρκεια της εκπαίδευσης. Πρέπει να κάνετε κάτι σχετικά με τα δεδομένα που λείπουν.
Τις περισσότερες φορές, μπορείτε να αγνοήσετε τις τιμές που λείπουν ή να τις επιδιορθώσετε υποθέτοντας μια πιθανή τιμή αντικατάστασης. Ωστόσο, πάρα πολλές ελλείπουσες τιμές καθιστούν πιο αβέβαιες προβλέψεις επειδή οι πληροφορίες που λείπουν θα μπορούσαν να αποκρύψουν κάθε πιθανό αριθμό. κατά συνέπεια, οι πιο ελλείπουσες τιμές στα χαρακτηριστικά, τόσο πιο μεταβλητές και ασαφείς οι προβλέψεις.
Ως πρώτο βήμα, μετρήστε τον αριθμό των περιπτώσεων που λείπουν σε κάθε μεταβλητή. Όταν μια μεταβλητή έχει υπερβολικά πολλές περιπτώσεις που λείπουν, ίσως χρειαστεί να την αποβάλλετε από το σύνολο δεδομένων κατάρτισης και δοκιμής. Ένας καλός κανόνας είναι να ρίξετε μια μεταβλητή αν το 90% των περιπτώσεων του λείπει.
Για παράδειγμα, σκεφτείτε την περίπτωση της μελέτης του εισοδήματος ενός πληθυσμού. Οι πλούσιοι (για φορολογικούς λόγους, πιθανώς) τείνουν να κρύβουν το πραγματικό τους εισόδημα αναφέροντας σε εσάς ότι δεν ξέρουν. Οι φτωχοί άνθρωποι, από την άλλη πλευρά, μπορούν να πουν ότι δεν θέλουν να αναφέρουν το εισόδημά τους από φόβο αρνητικής κρίσης. Εάν χάσετε πληροφορίες από ορισμένα στρώματα του πληθυσμού, η αποκατάσταση των ελλειπόντων δεδομένων μπορεί να είναι δύσκολη και παραπλανητική, επειδή μπορεί να πιστεύετε ότι τέτοιες περιπτώσεις είναι ακριβώς όπως και οι άλλες.
Αντίθετα, είναι αρκετά διαφορετικές. Επομένως, δεν μπορείτε απλά να χρησιμοποιήσετε μέσες τιμές για να αντικαταστήσετε τις ελλείπουσες τιμές - πρέπει να χρησιμοποιήσετε πολύπλοκες προσεγγίσεις και να τις συντονίσετε προσεκτικά.Επιπλέον, ο εντοπισμός περιπτώσεων που δεν λείπουν δεδομένα τυχαία είναι δύσκολη επειδή απαιτεί μια πιο προσεκτική εξέταση του τρόπου με τον οποίο οι ελλείπουσες τιμές συνδέονται με άλλες μεταβλητές στο σύνολο δεδομένων.
Όταν τα δεδομένα λείπουν τυχαία, μπορείτε εύκολα να επιδιορθώσετε τις κενές τιμές επειδή λαμβάνετε υπαινιγμούς στην πραγματική τους αξία από άλλες μεταβλητές. Όταν τα δεδομένα δεν λείπουν τυχαία, δεν μπορείτε να λάβετε καλές συμβουλές από άλλες διαθέσιμες πληροφορίες, εκτός αν κατανοήσετε τη σύνδεση δεδομένων με την περίπτωση που λείπει.
Επομένως, εάν πρέπει να υπολογίσετε τα ελλείποντα εισοδήματα στα δεδομένα σας και λείπει επειδή το άτομο είναι πλούσιο, δεν μπορείτε να αντικαταστήσετε την ελλειπή τιμή με έναν απλό μέσο όρο επειδή θα το αντικαταστήσετε με μεσαίο εισόδημα. Αντ 'αυτού, θα πρέπει να χρησιμοποιήσετε έναν μέσο όρο των εισοδημάτων των πλούσιων ανθρώπων ως αντικαταστάτη.
Όταν τα δεδομένα δεν λείπουν τυχαία, το γεγονός ότι η τιμή λείπει είναι ενημερωτική επειδή βοηθά στην ανίχνευση της ομάδας που λείπει. Μπορείτε να αφήσετε τη δουλειά να ψάχνει για τον λόγο ότι λείπει από τον αλγόριθμο εκμάθησης μηχανών σας, δημιουργώντας μια νέα δυαδική λειτουργία που αναφέρει όταν λείπει η τιμή μιας μεταβλητής. Συνεπώς, ο αλγόριθμος εκμάθησης μηχανών θα υπολογίσει την καλύτερη τιμή που θα χρησιμοποιηθεί ως αντικατάσταση από μόνη της.