Σπίτι Προσωπικά Οικονομικά Πώς να χρησιμοποιήσετε την Python για να επιλέξετε τις σωστές μεταβλητές για την Επιστήμη Δεδομένων - ανδρείκελα

Πώς να χρησιμοποιήσετε την Python για να επιλέξετε τις σωστές μεταβλητές για την Επιστήμη Δεδομένων - ανδρείκελα

Πίνακας περιεχομένων:

Βίντεο: Visualizing the Riemann hypothesis and analytic continuation 2024

Βίντεο: Visualizing the Riemann hypothesis and analytic continuation 2024
Anonim

Η επιλογή των σωστών μεταβλητών στη Python μπορεί να βελτιώσει τη διαδικασία μάθησης στην επιστήμη των δεδομένων μειώνοντας την ποσότητα θορύβου πληροφορίες) που μπορούν να επηρεάσουν τις εκτιμήσεις του εκπαιδευόμενου. Επομένως, η μεταβλητή επιλογή μπορεί να μειώσει αποτελεσματικά τη διακύμανση των προβλέψεων. Για να συμπεριλάβετε μόνο τις χρήσιμες μεταβλητές στην κατάρτιση και να αποφύγετε τους πλεονάζοντες, μπορείτε να χρησιμοποιήσετε αυτές τις τεχνικές:

  • Μοναδική προσέγγιση: Επιλέξτε τις μεταβλητές που σχετίζονται περισσότερο με το τελικό αποτέλεσμα.

  • Άπληστη ή προς τα πίσω προσέγγιση: Διατηρήστε μόνο τις μεταβλητές που μπορείτε να αφαιρέσετε από τη διαδικασία εκμάθησης χωρίς να καταστρέψετε την απόδοσή της.

Επιλέγοντας με μονομεταβλητά μέτρα

Αν αποφασίσετε να επιλέξετε μια μεταβλητή με το επίπεδο συσχέτισης της με τον στόχο της, η κατηγορία SelectPercentile παρέχει μια αυτόματη διαδικασία για τη διατήρηση μόνο ενός ορισμένου ποσοστού από τις καλύτερες συναφείς λειτουργίες. Οι διαθέσιμες μετρήσεις για σύνδεση είναι

  • f_regression: Χρησιμοποιείται μόνο για αριθμητικούς στόχους και βασίζεται στην απόδοση γραμμικής παλινδρόμησης.

  • f_classif: Χρησιμοποιείται μόνο για κατηγορηματικούς στόχους και βασίζεται στη στατιστική δοκιμασία Ανάλυση της Διακύμανσης (ANOVA).

  • chi2: Εκτελεί την chi-square στατιστική για τους κατηγορηματικούς στόχους, η οποία είναι λιγότερο λογική από τη μη γραμμική σχέση μεταξύ της προβλεπτικής μεταβλητής και του στόχου της.

Κατά την αξιολόγηση των υποψηφίων για ένα πρόβλημα ταξινόμησης, το f_classif και το chi2 τείνουν να παρέχουν το ίδιο σύνολο κορυφαίων μεταβλητών. Είναι ακόμα μια καλή πρακτική να δοκιμάσετε τις επιλογές από τις μετρήσεις της σύνδεσης.

Εκτός από την εφαρμογή μιας άμεσης επιλογής των κορυφαίων ποσοστών, το SelectPercentile μπορεί επίσης να ταξινομήσει τις καλύτερες μεταβλητές για να διευκολύνει την απόφαση σε ποιο εκατοστημόριο να αποκλείσει ένα χαρακτηριστικό από τη συμμετοχή στη διαδικασία εκμάθησης. Η κλάση SelectKBest είναι ανάλογη στη λειτουργικότητά της, αλλά επιλέγει τις μεταβλητές κορυφής k, όπου k είναι ένας αριθμός, όχι ένα εκατοστημόριο.

από το sklearn. Επιλογή_επιλογής εισαγωγής SelectPercentile από sklearn. feature_selection εισαγωγή f_regression Selector_f = ΕπιλογήPercentile (f_regression, percentile = 25) Selector_f. ταιριάζει (X, y) για το n, s με φερμουάρ (boston. όνομα στοιχείου, Selector_f. αποτελέσματα_): εκτύπωση "βαθμολογία F:% 3. 2στ για το χαρακτηριστικό% s '% (s, n) Βαθμός F: 88. 15 για το χαρακτηριστικό CRIM βαθμολογία F: 75. 26 για το χαρακτηριστικό ZN βαθμολογία F: 153. 95 για το χαρακτηριστικό INDUS βαθμολογία F: χαρακτηριστικό CHAS Αποτέλεσμα F: 112. 59 για χαρακτηριστικό NOX Βαθμό F: 471. 85 για το χαρακτηριστικό RM F-score: 83.48 για το χαρακτηριστικό AGE Βαθμός F: 33. 58 για το χαρακτηριστικό DIS F-score: 85. 91 για το χαρακτηριστικό RAD Score F: 141. 76 για το χαρακτηριστικό TAX F-score: 175. 11 για το χαρακτηριστικό PTRATIO F-score: 63. 05 για τη λειτουργία B Βαθμός F: 601. 62 για το χαρακτηριστικό LSTAT

Η χρήση του επιπέδου εξόδου συσχετισμού σάς βοηθά να επιλέξετε τις πιο σημαντικές μεταβλητές για το μοντέλο εκμάθησης μηχανών σας, αλλά θα πρέπει να προσέξετε αυτά τα πιθανά προβλήματα: > Ορισμένες μεταβλητές με υψηλή συσχέτιση θα μπορούσαν επίσης να συσχετιστούν πολύ, εισάγοντας διπλές πληροφορίες, οι οποίες λειτουργούν ως θόρυβοι στη διαδικασία εκμάθησης.

  • Ορισμένες μεταβλητές μπορεί να τιμωρηθούν, ιδιαίτερα δυαδικές (μεταβλητές που υποδεικνύουν κατάσταση ή χαρακτηριστικό χρησιμοποιώντας την τιμή 1 όταν υπάρχει, 0 όταν δεν είναι). Παραδείγματος χάριν, παρατηρήστε ότι η έξοδος εμφανίζει τη δυαδική μεταβλητή CHAS ως το λιγότερο σχετιζόμενη με τη μεταβλητή στόχο (αλλά γνωρίζετε από προηγούμενα παραδείγματα ότι έχει επιρροή από τη φάση πολλαπλής επικύρωσης).

  • Η διαδικασία της μονοπαραγωγικής επιλογής μπορεί να σας δώσει ένα πραγματικό πλεονέκτημα όταν έχετε έναν τεράστιο αριθμό μεταβλητών για να επιλέξετε από και όλες οι άλλες μέθοδοι μετατρέπονται σε υπολογιστικά ανέφικτο. Η καλύτερη διαδικασία είναι να μειώσετε την αξία του SelectPercentile κατά μισή ή περισσότερες από τις διαθέσιμες μεταβλητές, να μειώσετε τον αριθμό των μεταβλητών σε έναν διαχειρίσιμο αριθμό και, συνεπώς, να επιτρέψετε τη χρήση πιο περίπλοκης και ακριβέστερης μεθόδου, όπως μια άπληστη αναζήτηση.

Χρησιμοποιώντας μια άπληστη αναζήτηση

Όταν χρησιμοποιείτε μια μονομεταβλητή επιλογή, πρέπει να αποφασίσετε μόνοι σας πόσες μεταβλητές πρέπει να διατηρήσετε: Η άπληστη επιλογή μειώνει αυτόματα τον αριθμό των χαρακτηριστικών που εμπλέκονται σε ένα μαθησιακό μοντέλο με βάση την αποτελεσματική συμβολή τους απόδοσης που μετράται από το μέτρο σφάλματος.

Η κλάση RFECV, προσαρμόζοντας τα δεδομένα, μπορεί να σας παρέχει πληροφορίες σχετικά με τον αριθμό των χρήσιμων χαρακτηριστικών, να τις υποδεικνύει σε εσάς και να μετατρέπει αυτόματα τα δεδομένα Χ, με τη μέθοδο μετασχηματισμού, σε ένα μειωμένο σύνολο μεταβλητών, όπως φαίνεται στο το ακόλουθο παράδειγμα:

από το sklearn. επιλογή επιλογής χαρακτηριστικών επιλογής RFECV επιλογέας = RFECV (εκτιμητής = παλινδρόμηση, cv = 10, βαθμολόγηση = "mean_squared_error") επιλογέας. (6)

Είναι δυνατόν να αποκτήσετε ένα ευρετήριο της βέλτιστης μεταβλητής που ορίζεται καλώντας το χαρακτηριστικό support_ από το RFECV ("Optimal number of features:% d"% selector n_features_) Βέλτιστος αριθμός χαρακτηριστικών: μετά την τοποθέτησή του.

εκτυπώστε τη Βοστώνη. όνομα_στοιχείου [επιλογέας. Η μέθοδος RFECV μπορεί να ανιχνεύσει εάν μια μεταβλητή [CHAS "NOX" RM "DIS" PTRATIO "LSTAT ']

παρατηρεί ότι το CHAS είναι πλέον ένα από τα πιο προγνωστικά χαρακτηριστικά που αντιπαραβάλλεται με το αποτέλεσμα της μονομερούς αναζήτησης. είναι σημαντικό, ανεξάρτητα από το αν είναι δυαδικό, κατηγορηματικό ή αριθμητικό, επειδή αξιολογεί άμεσα το ρόλο που διαδραματίζει το χαρακτηριστικό στην πρόβλεψη.

Η μέθοδος RFECV είναι σίγουρα πιο αποτελεσματική, σε σύγκριση με την προσέγγιση -ανεπαγγελματική, διότι θεωρεί άκρως συσχετισμένα χαρακτηριστικά και είναι συντονισμένη για να βελτιστοποιήσει το μέτρο αξιολόγησης (το οποίο συνήθως δεν είναι Chi-square ή F-score). Είναι μια άπληστη διαδικασία, είναι υπολογιστικά απαιτητική και μπορεί μόνο να προσεγγίσει το καλύτερο σύνολο προγνωστικών.

Καθώς το RFECV μαθαίνει το καλύτερο σύνολο μεταβλητών από δεδομένα, η επιλογή μπορεί να υπερκεραστεί, πράγμα που συμβαίνει με όλους τους άλλους αλγόριθμους εκμάθησης μηχανών. Η δοκιμή RFECV σε διαφορετικά δείγματα των δεδομένων εκπαίδευσης μπορεί να επιβεβαιώσει τις καλύτερες μεταβλητές που πρέπει να χρησιμοποιηθούν.

Πώς να χρησιμοποιήσετε την Python για να επιλέξετε τις σωστές μεταβλητές για την Επιστήμη Δεδομένων - ανδρείκελα

Η επιλογή των συντακτών

Εξαρτήματα ηλεκτρονικών: Ενισχυτές ανοιχτού βρόχου

Εξαρτήματα ηλεκτρονικών: Ενισχυτές ανοιχτού βρόχου

Οι πιο βασικές ηλεκτρονικές χρήσεις ενός ενισχυτή Op είναι ως ενισχυτής. Εάν συνδέσετε μια πηγή εισόδου σε έναν από τους ακροδέκτες εισόδου και γειώσετε τον άλλο ακροδέκτη εισόδου, εμφανίζεται μια ενισχυμένη έκδοση του σήματος εισόδου στο εξωτερικό τερματικό. Μια σημαντική ιδέα στα κυκλώματα op-amp ...

Ηλεκτρονικά Στοιχεία: Δημοφιλή Op Amp Ενσωματωμένα Κυκλώματα - Dummy

Ηλεκτρονικά Στοιχεία: Δημοφιλή Op Amp Ενσωματωμένα Κυκλώματα - Dummy

Για την οικοδόμηση ενός πραγματικού ηλεκτρονικού κυκλώματος χρησιμοποιώντας Op-amp, φυσικά, θα πρέπει να χρησιμοποιήσετε ένα πραγματικό ενισχυτή op. Ευτυχώς, τα ενσωματωμένα ολοκληρωμένα κυκλώματα (IC) είναι άφθονα και σχεδόν όλα τα καταστήματα που πωλούν ηλεκτρονικά εξαρτήματα πωλούν διάφορους τύπους φθηνών IC-ενισχυτών. Το πιο δημοφιλές op-amp IC είναι το LM741, το οποίο έρχεται ...

Ηλεκτρονικά Συστατικά: Κύκλοι ταλαντωτών - ανδρείκελοι

Ηλεκτρονικά Συστατικά: Κύκλοι ταλαντωτών - ανδρείκελοι

. Η ακριβής κυματομορφή που παράγεται εξαρτάται από τον τύπο του κυκλώματος που χρησιμοποιείται για τη δημιουργία του ταλαντωτή. Ένα από τα συνηθέστερα χρησιμοποιούμενα κυκλώματα ταλαντωτών είναι κατασκευασμένο από ένα ζεύγος τρανζίστορ που είναι εφοδιασμένα για να εναλλάσσονται και να σβήνουν εναλλάξ. Αυτός ο τύπος κυκλώματος είναι ...

Η επιλογή των συντακτών

Ασκήσεις για ανδρείκελα Κατάρτιση για ανδρείκελα Εξάσκηση - ανδρείκελα

Ασκήσεις για ανδρείκελα Κατάρτιση για ανδρείκελα Εξάσκηση - ανδρείκελα

Η ασήμαντη εκπαίδευση είναι ένα σημαντικό βήμα στην ανάπτυξη των παιδιών. Ως γονέας, θα πρέπει να αναγνωρίσετε τα σημάδια ότι το παιδί σας είναι έτοιμο για την ομιλία της τουαλέτας, να ξεκινήσει μια διαδικασία ασήμαντης κατάρτισης, να συνεχίσει τη διαδικασία και να αναγνωρίσει πότε το παιδί σας είναι σχεδόν εκεί. Κατά τη διάρκεια της διαδρομής, πρέπει να σιγουρευτείτε ότι το παιδί σας ξέρει ...

Εκπαίδευση για παιδιά με αναπηρίες - ανδρείκελα

Εκπαίδευση για παιδιά με αναπηρίες - ανδρείκελα

Παιδιά, ανάλογα με την αναπηρία. Μπορεί να χρειαστεί να παρέχετε στηρίγματα υψηλής τεχνολογίας που διευκολύνουν την κίνηση από τον περιπατητή ή την αναπηρική καρέκλα στην τουαλέτα (δείτε την ενότητα "Εργασία με ειδικό εργαλείο" σε αυτό το άρθρο.) Από την άλλη πλευρά, το παιδί σας μπορεί να ...

Υποδηλώνουν ότι το παιδί σας είναι έτοιμο για ασήμαντη εκπαίδευση - ανδρείκελα

Υποδηλώνουν ότι το παιδί σας είναι έτοιμο για ασήμαντη εκπαίδευση - ανδρείκελα

Την ημέρα που κάθε γονιός επιθυμεί, αλλά δεν μπορείτε να βιάσετε τη διαδικασία. Περιμένετε τα σημάδια ότι το παιδί σας είναι έτοιμο να αντιμετωπίσει αυτή τη μεγάλη πρόκληση. Παρακολουθήστε τα σημεία στην παρακάτω λίστα. οι πρώτες πέντε είναι απολύτως απαραίτητες: μένει ξηρό τουλάχιστον δύο ώρες παίρνει Bummed από υγρό ή ...

Η επιλογή των συντακτών

Πώς να χρησιμοποιήσετε τη φαντασία σας για να χαλαρώσετε το σώμα σας για διαλογισμό - Dummies

Πώς να χρησιμοποιήσετε τη φαντασία σας για να χαλαρώσετε το σώμα σας για διαλογισμό - Dummies

Αναδυόμενο πεδίο της ιατρικής μυαλού-σώματος υπενθυμίζει στους ανθρώπους - και γιόγκι και σοφοί έχουν πει για χιλιετίες - το σώμα σας, το μυαλό σας και η καρδιά σας αποτελούν ένα ενιαίο και αδιάσπαστο σύνολο. Όταν οι σκέψεις σας συνεχίζουν να σφύζουν από την ανησυχία σας, το σώμα σας αποκρίνεται με τη σύσφιξη και την τάνυση, ειδικά σε ορισμένες σημαντικές θέσεις ...

Πώς να χρησιμοποιήσετε την προσοχή για τη διαχείριση του πόνου

Πώς να χρησιμοποιήσετε την προσοχή για τη διαχείριση του πόνου

Πόνος είναι κάτι που θα αντιμετωπίσει κάποιος σε κάποιο σημείο . Η προσοχή μπορεί να σας βοηθήσει να προσεγγίσετε πόνο με υγιεινό τρόπο. Ο οξύς πόνος είναι ένας αιχμηρός πόνος που διαρκεί για μικρό χρονικό διάστημα, μερικές φορές ορίζεται ως λιγότερο από 12 εβδομάδες. Η ιατρική είναι αρκετά καλή για τη θεραπεία του οξέος πόνου. Ο χρόνιος πόνος είναι ο πόνος που διαρκεί ...

Βελτίωση των σχέσεών σας - ανδρείκεS

Βελτίωση των σχέσεών σας - ανδρείκεS

Σχέσεις - είτε με την οικογένεια, τους φίλους ή τους εραστές; Και δεν έχει σημασία πόσο χαρούμενος και ευχαριστημένος είστε με τις σημαντικές σχέσεις στη ζωή σας, υπάρχει πάντα περιθώριο βελτίωσης. Οι σχέσεις, όπως όλες οι διεργασίες, επίσης καταλήγουν και ρέουν και σας παρουσιάζουν προκλήσεις. Εδώ είναι μερικές εξαιρετικές τεχνικές για να σας βοηθήσουμε ...