Πώς να δημιουργήσετε ένα μοντέλο εποπτευόμενης μάθησης με λογική παλινδρόμηση - Dummies

Βίντεο: Πώς να δημιουργήσετε μία ιστοσελίδα 2024

Αφού δημιουργήσατε το πρώτο πρότυπο πρότυπο ταξινόμησης για ανάλυση των δεδομένων, δημιουργώντας περισσότερα μοντέλα, όπως είναι ένα πολύ απλό έργο στο scikit. Η μόνη πραγματική διαφορά από το ένα μοντέλο στο επόμενο είναι ότι ίσως χρειαστεί να συντονίσετε τις παραμέτρους από αλγόριθμο σε αλγόριθμο.

Πώς να φορτώσετε τα δεδομένα σας

Αυτός ο κατάλογος κωδικών θα φορτώσει το σύνολο δεδομένων ίριδας στη συνεδρία σας: >>>> από το sklearn. σύνολα δεδομένων import load_iris >>> iris = load_iris ()

Πώς να δημιουργήσετε μια εμφάνιση του ταξινομητή

Οι ακόλουθες δύο γραμμές κώδικα δημιουργούν μια εμφάνιση του ταξινομητή. Η πρώτη γραμμή εισάγει τη βιβλιοθήκη παλινδρόμησης logistics. Η δεύτερη γραμμή δημιουργεί μια παρουσία του αλγορίθμου logistic regression. >>>> από την εισαγωγή sklearn linear_model >>> logClassifier = linear_model. LogisticRegression (C = 1, random_state = 111)

Παρατηρήστε την παράμετρο (παράμετρος κανονικοποίησης) στον κατασκευαστή. Η παράμετρος ρύθμισης

χρησιμοποιείται για να αποφευχθεί η υπερφόρτωση. Η παράμετρος δεν είναι απολύτως απαραίτητη (ο κατασκευαστής θα δουλέψει καλά χωρίς αυτό επειδή θα προεπιλεγεί σε C = 1). Η δημιουργία ενός ταξινομητή λογιστικής παλινδρόμησης χρησιμοποιώντας το C = 150 δημιουργεί ένα καλύτερο διάγραμμα της επιφάνειας απόφασης. Μπορείτε να δείτε και τα δύο οικόπεδα παρακάτω.

Τρόπος εκτέλεσης των δεδομένων εκπαίδευσης

Θα χρειαστεί να διαιρέσετε το σύνολο δεδομένων σε σύνολα εκπαίδευσης και δοκιμής πριν να δημιουργήσετε μια παρουσία του ταξινομητή λογιστικής παλινδρόμησης. Ο παρακάτω κώδικας θα ολοκληρώσει αυτή την εργασία: >>>> από την εισαγωγή sklearn cross_validation >>> X_train, X_test, y_train, y_test = cross_validation. train_test_split (δεδομένα ίριδας, ίριδας στόχος, test_size = 0, 10, random_state = 111) >>> logClassifier. fit (X_train, y_train)

Η Γραμμή 1 εισάγει τη βιβλιοθήκη που σας επιτρέπει να διαιρέσετε το σύνολο δεδομένων σε δύο μέρη.

Η Γραμμή 2 καλεί τη λειτουργία από τη βιβλιοθήκη που διαιρεί το σύνολο δεδομένων σε δύο μέρη και ορίζει τα τώρα χωρισμένα σύνολα δεδομένων σε δύο ζεύγη μεταβλητών.

Η γραμμή 3 παίρνει την περίπτωση του ταξινομητή λογιστικής παλινδρόμησης που μόλις δημιουργήσατε και καλεί την κατάλληλη μέθοδο για την εκπαίδευση του μοντέλου με το σύνολο δεδομένων κατάρτισης.
Πώς να απεικονίσετε τον ταξινομητή

Κοιτάζοντας την περιοχή επιφάνειας απόφασης στο οικόπεδο, φαίνεται ότι πρέπει να γίνει κάποια ρύθμιση. Εάν κοιτάξετε κοντά στη μέση του οικοπέδου, μπορείτε να δείτε ότι πολλά από τα σημεία δεδομένων που ανήκουν στη μεσαία περιοχή (Versicolor) βρίσκονται στην περιοχή προς τη δεξιά πλευρά (Virginica).

Αυτή η εικόνα δείχνει την επιφάνεια απόφασης με τιμή C 150. Βελτιώνει οπτικά, γι αυτό επιλέγοντας τη χρήση αυτής της ρύθμισης για το μοντέλο λογιστικής παλινδρόμησης φαίνεται κατάλληλη.

Τρόπος εκτέλεσης των δεδομένων ελέγχου

Στον ακόλουθο κώδικα, η πρώτη γραμμή τροφοδοτεί το σύνολο δεδομένων δοκιμής στο μοντέλο και η τρίτη γραμμή εμφανίζει την έξοδο: >>>> predicted = logClassifier. (0, 2, 2, 1, 0, 0, 2, 2, 1, 2, 0, 2, 2, 2) Μπορείτε να παραπέμψετε την έξοδο από την πρόβλεψη έναντι του πίνακα y_test. Ως αποτέλεσμα, μπορείτε να δείτε ότι προέβλεψε σωστά όλα τα σημεία δεδομένων δοκιμής. Εδώ είναι ο κώδικας: >>>> από τις μετρήσεις εισαγωγής sklearn >>> predictedarray ([0, 0, 2, 2, 1, 0, 0, 2, 2, 1, 2,) >>> y_testarray ([0, 0, 2, 2, 1, 0, 0, 2, 2, 1, 2, 0, 2, 2]) >>> μετρήσεις. accuracy_score (y_test, προβλεπόμενο) 1. 0 # 1. 0 είναι ακρίβεια 100% >>> προβλεπόμενη == y_testarray ([Αληθής, Αληθής, Αληθής, Αληθής, Αληθές, Αληθές, Αληθές, Αληθές, Αληθές, Αληθές, Αληθές, Αληθές, Αληθές, Αληθές] = bool)

Έτσι, πώς συγκρίνεται το μοντέλο λογικής παλινδρόμησης με την παράμετρο C = 150; Λοιπόν, δεν μπορείτε να νικήσετε 100 τοις εκατό. Εδώ είναι ο κώδικας για τη δημιουργία και την αξιολόγηση του λογαριστικού ταξινομητή με C = 150: >>>> logClassifier_2 = linear_model. ΛογιστικήRegression (C = 150, random_state = 111) >>> logClassifier_2. προσαρμογή (X_train, y_train) >>> προβλεπόμενη = logClassifier_2. πρόβλεψη (X_test) >>> μετρήσεων. accuracy_score (y_test, προβλεπόμενο) 0. 93333333333333335 >>> μετρήσεις. [0, 0, 0], [0, 2, 0], [0, 1, 7]])

Αναμέναμε καλύτερα, αλλά ήταν στην πραγματικότητα χειρότερη. Υπήρξε ένα λάθος στις προβλέψεις. Το αποτέλεσμα είναι το ίδιο με αυτό του μοντέλου του φορέα υποστήριξης (SVM).

Εδώ εμφανίζεται ο πλήρης κατάλογος του κώδικα για τη δημιουργία και την αξιολόγηση ενός μοντέλου ταξινόμησης παλινδρόμησης με τις προεπιλεγμένες παραμέτρους: >>>> από το sklearn. σύνολα δεδομένων import load_iris >>> από sklearn import linear_model >>> από sklearn εισαγωγή cross_validation >>> από τις μετρήσεις εισαγωγής sklearn >>> iris = load_iris () >>> X_train, X_test, y_train, y_test = cross_validation. train_test_split (δεδομένα ίριδας, ίριδας στόχος, test_size = 0.10, random_state = 111) >>> logClassifier = linear_model. LogisticRegression (, random_state = 111) >>> logClassifier. ταιριάζει (X_train, y_train) >>> προβλεπόμενος = logClassifier. (0, 0, 2, 2, 1, 0, 2, 2, 1, 2, 0, 2, 2, 2) >>> y_testarray ([0, 0, 2, 2, 1, 0, 2, 2, 1, 2, 0, 2, 2, 2]) >>> μετρήσεις. accuracy_score (y_test, προβλεπόμενο) 1. 0 # 1. 0 είναι ακρίβεια 100% >>> προβλεπόμενη == y_testarray ([Αληθής, Αληθής, Αληθής, Αληθής, Αληθές, Αληθές, Αληθές, Αληθές, Αληθές, Αληθές, Αληθές, Αληθές, Αληθές, Αληθές] = bool)