Πώς να χρησιμοποιήσετε την Python για να επιλέξετε τις σωστές μεταβλητές για την Επιστήμη Δεδομένων - ανδρείκελα

Η επιλογή των σωστών μεταβλητών στη Python μπορεί να βελτιώσει τη διαδικασία μάθησης στην επιστήμη των δεδομένων μειώνοντας την ποσότητα θορύβου πληροφορίες) που μπορούν να επηρεάσουν τις εκτιμήσεις του εκπαιδευόμενου. Επομένως, η μεταβλητή επιλογή μπορεί να μειώσει αποτελεσματικά τη διακύμανση των προβλέψεων. Για να συμπεριλάβετε μόνο τις χρήσιμες μεταβλητές στην κατάρτιση και να αποφύγετε τους πλεονάζοντες, μπορείτε να χρησιμοποιήσετε αυτές τις τεχνικές:

Μοναδική προσέγγιση: Επιλέξτε τις μεταβλητές που σχετίζονται περισσότερο με το τελικό αποτέλεσμα.
Άπληστη ή προς τα πίσω προσέγγιση: Διατηρήστε μόνο τις μεταβλητές που μπορείτε να αφαιρέσετε από τη διαδικασία εκμάθησης χωρίς να καταστρέψετε την απόδοσή της.

Επιλέγοντας με μονομεταβλητά μέτρα

Αν αποφασίσετε να επιλέξετε μια μεταβλητή με το επίπεδο συσχέτισης της με τον στόχο της, η κατηγορία SelectPercentile παρέχει μια αυτόματη διαδικασία για τη διατήρηση μόνο ενός ορισμένου ποσοστού από τις καλύτερες συναφείς λειτουργίες. Οι διαθέσιμες μετρήσεις για σύνδεση είναι

f_regression: Χρησιμοποιείται μόνο για αριθμητικούς στόχους και βασίζεται στην απόδοση γραμμικής παλινδρόμησης.
f_classif: Χρησιμοποιείται μόνο για κατηγορηματικούς στόχους και βασίζεται στη στατιστική δοκιμασία Ανάλυση της Διακύμανσης (ANOVA).
chi2: Εκτελεί την chi-square στατιστική για τους κατηγορηματικούς στόχους, η οποία είναι λιγότερο λογική από τη μη γραμμική σχέση μεταξύ της προβλεπτικής μεταβλητής και του στόχου της.

Κατά την αξιολόγηση των υποψηφίων για ένα πρόβλημα ταξινόμησης, το f_classif και το chi2 τείνουν να παρέχουν το ίδιο σύνολο κορυφαίων μεταβλητών. Είναι ακόμα μια καλή πρακτική να δοκιμάσετε τις επιλογές από τις μετρήσεις της σύνδεσης.

Εκτός από την εφαρμογή μιας άμεσης επιλογής των κορυφαίων ποσοστών, το SelectPercentile μπορεί επίσης να ταξινομήσει τις καλύτερες μεταβλητές για να διευκολύνει την απόφαση σε ποιο εκατοστημόριο να αποκλείσει ένα χαρακτηριστικό από τη συμμετοχή στη διαδικασία εκμάθησης. Η κλάση SelectKBest είναι ανάλογη στη λειτουργικότητά της, αλλά επιλέγει τις μεταβλητές κορυφής k, όπου k είναι ένας αριθμός, όχι ένα εκατοστημόριο.

από το sklearn. Επιλογή_επιλογής εισαγωγής SelectPercentile από sklearn. feature_selection εισαγωγή f_regression Selector_f = ΕπιλογήPercentile (f_regression, percentile = 25) Selector_f. ταιριάζει (X, y) για το n, s με φερμουάρ (boston. όνομα στοιχείου, Selector_f. αποτελέσματα_): εκτύπωση "βαθμολογία F:% 3. 2στ για το χαρακτηριστικό% s '% (s, n) Βαθμός F: 88. 15 για το χαρακτηριστικό CRIM βαθμολογία F: 75. 26 για το χαρακτηριστικό ZN βαθμολογία F: 153. 95 για το χαρακτηριστικό INDUS βαθμολογία F: χαρακτηριστικό CHAS Αποτέλεσμα F: 112. 59 για χαρακτηριστικό NOX Βαθμό F: 471. 85 για το χαρακτηριστικό RM F-score: 83.48 για το χαρακτηριστικό AGE Βαθμός F: 33. 58 για το χαρακτηριστικό DIS F-score: 85. 91 για το χαρακτηριστικό RAD Score F: 141. 76 για το χαρακτηριστικό TAX F-score: 175. 11 για το χαρακτηριστικό PTRATIO F-score: 63. 05 για τη λειτουργία B Βαθμός F: 601. 62 για το χαρακτηριστικό LSTAT

Η χρήση του επιπέδου εξόδου συσχετισμού σάς βοηθά να επιλέξετε τις πιο σημαντικές μεταβλητές για το μοντέλο εκμάθησης μηχανών σας, αλλά θα πρέπει να προσέξετε αυτά τα πιθανά προβλήματα: > Ορισμένες μεταβλητές με υψηλή συσχέτιση θα μπορούσαν επίσης να συσχετιστούν πολύ, εισάγοντας διπλές πληροφορίες, οι οποίες λειτουργούν ως θόρυβοι στη διαδικασία εκμάθησης.

Ορισμένες μεταβλητές μπορεί να τιμωρηθούν, ιδιαίτερα δυαδικές (μεταβλητές που υποδεικνύουν κατάσταση ή χαρακτηριστικό χρησιμοποιώντας την τιμή 1 όταν υπάρχει, 0 όταν δεν είναι). Παραδείγματος χάριν, παρατηρήστε ότι η έξοδος εμφανίζει τη δυαδική μεταβλητή CHAS ως το λιγότερο σχετιζόμενη με τη μεταβλητή στόχο (αλλά γνωρίζετε από προηγούμενα παραδείγματα ότι έχει επιρροή από τη φάση πολλαπλής επικύρωσης).
Η διαδικασία της μονοπαραγωγικής επιλογής μπορεί να σας δώσει ένα πραγματικό πλεονέκτημα όταν έχετε έναν τεράστιο αριθμό μεταβλητών για να επιλέξετε από και όλες οι άλλες μέθοδοι μετατρέπονται σε υπολογιστικά ανέφικτο. Η καλύτερη διαδικασία είναι να μειώσετε την αξία του SelectPercentile κατά μισή ή περισσότερες από τις διαθέσιμες μεταβλητές, να μειώσετε τον αριθμό των μεταβλητών σε έναν διαχειρίσιμο αριθμό και, συνεπώς, να επιτρέψετε τη χρήση πιο περίπλοκης και ακριβέστερης μεθόδου, όπως μια άπληστη αναζήτηση.

Χρησιμοποιώντας μια άπληστη αναζήτηση

Όταν χρησιμοποιείτε μια μονομεταβλητή επιλογή, πρέπει να αποφασίσετε μόνοι σας πόσες μεταβλητές πρέπει να διατηρήσετε: Η άπληστη επιλογή μειώνει αυτόματα τον αριθμό των χαρακτηριστικών που εμπλέκονται σε ένα μαθησιακό μοντέλο με βάση την αποτελεσματική συμβολή τους απόδοσης που μετράται από το μέτρο σφάλματος.

Η κλάση RFECV, προσαρμόζοντας τα δεδομένα, μπορεί να σας παρέχει πληροφορίες σχετικά με τον αριθμό των χρήσιμων χαρακτηριστικών, να τις υποδεικνύει σε εσάς και να μετατρέπει αυτόματα τα δεδομένα Χ, με τη μέθοδο μετασχηματισμού, σε ένα μειωμένο σύνολο μεταβλητών, όπως φαίνεται στο το ακόλουθο παράδειγμα:

από το sklearn. επιλογή επιλογής χαρακτηριστικών επιλογής RFECV επιλογέας = RFECV (εκτιμητής = παλινδρόμηση, cv = 10, βαθμολόγηση = "mean_squared_error") επιλογέας. (6)

Είναι δυνατόν να αποκτήσετε ένα ευρετήριο της βέλτιστης μεταβλητής που ορίζεται καλώντας το χαρακτηριστικό support_ από το RFECV ("Optimal number of features:% d"% selector n_features_) Βέλτιστος αριθμός χαρακτηριστικών: μετά την τοποθέτησή του.

εκτυπώστε τη Βοστώνη. όνομα_στοιχείου [επιλογέας. Η μέθοδος RFECV μπορεί να ανιχνεύσει εάν μια μεταβλητή [CHAS "NOX" RM "DIS" PTRATIO "LSTAT ']

παρατηρεί ότι το CHAS είναι πλέον ένα από τα πιο προγνωστικά χαρακτηριστικά που αντιπαραβάλλεται με το αποτέλεσμα της μονομερούς αναζήτησης. είναι σημαντικό, ανεξάρτητα από το αν είναι δυαδικό, κατηγορηματικό ή αριθμητικό, επειδή αξιολογεί άμεσα το ρόλο που διαδραματίζει το χαρακτηριστικό στην πρόβλεψη.

Η μέθοδος RFECV είναι σίγουρα πιο αποτελεσματική, σε σύγκριση με την προσέγγιση -ανεπαγγελματική, διότι θεωρεί άκρως συσχετισμένα χαρακτηριστικά και είναι συντονισμένη για να βελτιστοποιήσει το μέτρο αξιολόγησης (το οποίο συνήθως δεν είναι Chi-square ή F-score). Είναι μια άπληστη διαδικασία, είναι υπολογιστικά απαιτητική και μπορεί μόνο να προσεγγίσει το καλύτερο σύνολο προγνωστικών.

Καθώς το RFECV μαθαίνει το καλύτερο σύνολο μεταβλητών από δεδομένα, η επιλογή μπορεί να υπερκεραστεί, πράγμα που συμβαίνει με όλους τους άλλους αλγόριθμους εκμάθησης μηχανών. Η δοκιμή RFECV σε διαφορετικά δείγματα των δεδομένων εκπαίδευσης μπορεί να επιβεβαιώσει τις καλύτερες μεταβλητές που πρέπει να χρησιμοποιηθούν.