Αλγόριθμοι ταξινόμησης

Με τους αλγόριθμους ταξινόμησης λαμβάνετε ένα υπάρχον σύνολο δεδομένων χρησιμοποιήστε αυτό που γνωρίζετε για να δημιουργήσετε ένα μοντέλο πρόβλεψης για χρήση στην ταξινόμηση μελλοντικών σημείων δεδομένων. Αν ο στόχος σας είναι να χρησιμοποιήσετε το σύνολο δεδομένων και τα γνωστά υποσύνολά του για να δημιουργήσετε ένα πρότυπο για την πρόβλεψη της κατηγοριοποίησης των μελλοντικών σημείων δεδομένων, θα χρειαστεί να χρησιμοποιήσετε αλγόριθμους ταξινόμησης.

Κατά την εφαρμογή της εποπτευόμενης ταξινόμησης, θα πρέπει να γνωρίζετε ήδη τα υποσύνολα των δεδομένων σας - αυτά τα υποσύνολα ονομάζονται κατηγορίες . Η ταξινόμηση σάς βοηθά να δείτε πόσο καλά τα δεδομένα σας ταιριάζουν στις προκαθορισμένες κατηγορίες δεδομένων, ώστε να μπορέσετε στη συνέχεια να δημιουργήσετε ένα μοντέλο πρόβλεψης για χρήση στην ταξινόμηση μελλοντικών σημείων δεδομένων.

Ο αριθμός δείχνει πώς φαίνεται να ταξινομεί τα σύνολα δεδομένων εισοδήματος και εκπαίδευσης της Παγκόσμιας Τράπεζας σύμφωνα με την κατηγορία της Ηπείρου.

Μπορείτε να διαπιστώσετε ότι σε ορισμένες περιπτώσεις τα υποσύνολα που μπορεί να ταυτιστούν με μια τεχνική ομαδοποίησης αντιστοιχούν στην κατηγορία των ηπείρων, αλλά σε άλλες περιπτώσεις, δεν συμβαίνουν. Για παράδειγμα, κοιτάξτε τη μία ασιατική χώρα στη μέση των αφρικανικών σημείων δεδομένων. Αυτό είναι το Μπουτάν. Θα μπορούσατε να χρησιμοποιήσετε τα δεδομένα σε αυτό το σύνολο δεδομένων για να δημιουργήσετε ένα μοντέλο που θα προέβλεπε μια κατηγορία ηπείρου για τα εισερχόμενα σημεία δεδομένων.

Τώρα φανταστείτε μια κατάσταση στην οποία τα αρχικά σας δεδομένα δεν περιλαμβάνουν το Μπουτάν και χρησιμοποιείτε το μοντέλο για να προβλέψετε την ήπειρο του Μπουτάν ως νέο σημείο δεδομένων. Σε αυτό το σενάριο, το μοντέλο θα προέβλεπε εσφαλμένα ότι το Μπουτάν είναι μέρος της αφρικανικής ηπείρου.

- καταστάσεις στις οποίες ένα μοντέλο είναι τόσο στενά προσαρμοσμένο στο υποκείμενο σύνολο δεδομένων του, καθώς και ο θόρυβος ή τυχαίο σφάλμα που είναι εγγενές σε αυτό το σύνολο δεδομένων, ότι το μοντέλο εκτελεί ανεπαρκώς ως πρόβλεψη για νέα σημεία δεδομένων. Για να αποφύγετε την υπερφόρτωση των μοντέλων σας, διαιρέστε τα δεδομένα σας σε ένα σετ εκπαίδευσης και ένα σύνολο δοκιμών. Ένας τυπικός λόγος είναι να αντιστοιχίσετε το 80 τοις εκατό των δεδομένων στο σετ εκπαίδευσης και το υπόλοιπο 20 τοις εκατό στο σετ δοκιμών. Κατασκευάστε το μοντέλο σας με το σετ εκπαίδευσης και, στη συνέχεια, χρησιμοποιήστε το σετ δοκιμών για να αξιολογήσετε το μοντέλο προσποιώντας ότι τα σημεία δεδομένων δοκιμής δεν είναι γνωστά. Μπορείτε να αξιολογήσετε την ακρίβεια του μοντέλου σας συγκρίνοντας τις κατηγορίες που αντιστοιχούν σε αυτά τα σημεία δεδομένων που έχουν καθοριστεί από το μοντέλο στις αληθινές κατηγορίες. Η υπερπαραγωγή του μοντέλου μπορεί επίσης να είναι ένα πρόβλημα.

Η υπερκερατισμός

είναι το αντίθετο της υπερφόρτωσης: Συμβαίνει όταν ένας επιστήμονας δεδομένων προσπαθεί να αποφύγει - ταξινόμηση λόγω μη υπερβολικού εξοπλισμού κάνοντας ένα μοντέλο εξαιρετικά γενικό. Τα μοντέλα που είναι πολύ γενικά καταλήγουν να αποδίδουν σε κάθε κατηγορία χαμηλό βαθμό εμπιστοσύνης. Για να απεικονιστεί η υπερπαραγωγή μοντέλου, εξετάστε εκ νέου τα σύνολα δεδομένων εισοδήματος και εκπαίδευσης της Παγκόσμιας Τράπεζας. Εάν το μοντέλο χρησιμοποίησε την παρουσία του Μπουτάν για να θέσει σε αμφιβολία κάθε νέο σημείο δεδομένων στην κοντινή περιοχή του, τότε καταλήγετε σε ένα ευσεβές μοντέλο που αντιμετωπίζει όλα τα κοντινά σημεία ως αφρικανικό αλλά με μικρή πιθανότητα. Αυτό το μοντέλο θα ήταν ένας φτωχός προγνωστικός ερμηνευτής. Μια καλή μεταφορά για υπερκατασκευή και υπερπαραγωγή μπορεί να παρουσιαστεί με τη γνωστή φράση: "Αν περπατάει σαν πάπια και μιλάει σαν πάπια, τότε είναι πάπια. "Η υπερφόρτωση θα μετατρέψει αυτή τη φράση σε:" Είναι μια πάπια αν, και μόνο αν, περπατά και quarks ακριβώς με τους τρόπους που έχω παρατηρήσει προσωπικά μια πάπια για να περπατήσει και quack. Δεδομένου ότι δεν έχω παρατηρήσει ποτέ τον τρόπο με έναν αυστραλιανό στίγματα πάπια βόλτες και quacks, μια αυστραλιανή στίγματα πάπια δεν πρέπει να είναι πραγματικά μια πάπια σε όλα. "

Αντίθετα, η υπερκερατισμός θα έλεγε:" Εάν μετακινείται σε δύο πόδια και εκπέμπει οποιοδήποτε υψηλό ρινικό ήχο, είναι πάπια. Επομένως, ο Fran Fine, ο χαρακτήρας του Fran Drescher στην αμερικανική κωμική σειρά 90s> The Nanny

πρέπει να είναι πάπια. "

Η εποπτευόμενη μηχανική μάθηση - ο φανταχτερός όρος για ταξινόμηση - είναι κατάλληλος σε περιπτώσεις όπου ισχύουν τα ακόλουθα χαρακτηριστικά: Γνωρίζετε και κατανοείτε το σύνολο δεδομένων που αναλύετε.

Τα υποσύνολα (κατηγορίες) του συνόλου δεδομένων σας καθορίζονται μπροστά από το χρόνο και δεν καθορίζονται από τα δεδομένα. Θέλετε να δημιουργήσετε ένα μοντέλο που να συσχετίζει τα δεδομένα εντός των προκαθορισμένων κατηγοριών του, έτσι ώστε το μοντέλο να μπορεί να βοηθήσει στην πρόβλεψη της κατηγοριοποίησης των μελλοντικών σημείων δεδομένων.

Κατά την ταξινόμηση, λάβετε υπόψη τα ακόλουθα σημεία:
Οι προβλέψεις μοντέλου είναι τόσο καλές όσο τα υποκείμενα δεδομένα του μοντέλου.
Στο παράδειγμα δεδομένων της Παγκόσμιας Τράπεζας, θα μπορούσε να συμβεί, αν άλλοι παράγοντες όπως το προσδόκιμο ζωής ή η κατανάλωση ενέργειας κατά κεφαλήν προστέθηκαν στο μοντέλο, θα μπορούσε να αυξηθεί η προβλεπτική δύναμή του.

Οι προβλέψεις μοντέλων είναι μόνο τόσο καλές όσο η κατηγοριοποίηση του υποκείμενου συνόλου δεδομένων.

Για παράδειγμα, τι κάνεις με χώρες όπως η Ρωσία που καλύπτουν δύο ηπείρους; Διακρίνετε τη Βόρεια Αφρική από την υποσαχάρια Αφρική; Μήπως εστιάζετε τη Βόρεια Αμερική στην Ευρώπη επειδή τείνουν να μοιράζονται παρόμοια χαρακτηριστικά; Θεωρείτε ότι η Κεντρική Αμερική είναι μέρος της Βόρειας Αμερικής ή της Νότιας Αμερικής; Υπάρχει συνεχής κίνδυνος υπερφόρτωσης και υπερπαραγωγής. Ένα ευχάριστο μέσο πρέπει να βρεθεί μεταξύ των δύο.