Πώς να δημιουργήσετε ένα μοντέλο Predicactive Analytics με R regression - dummies

Βίντεο: The Great Gildersleeve: The Circus / The Haunted House / The Burglar 2024

Θέλετε να δημιουργήσετε ένα πρότυπο μοντέλο ανάλυσης που μπορείτε να αξιολογήσετε χρησιμοποιώντας γνωστά αποτελέσματα. Για να γίνει αυτό, πρόκειται να χωρίσουμε το σύνολο δεδομένων μας σε δύο σύνολα: το ένα για την εκπαίδευση του μοντέλου και το ένα για τη δοκιμή του μοντέλου. Μια διάκριση 70/30 μεταξύ εκπαιδευτικών και δοκιμαστικών συνόλων δεδομένων αρκεί. Οι επόμενες δύο γραμμές κώδικα υπολογίζουν και αποθηκεύουν τα μεγέθη κάθε συνόλου: >> trainSize testSize <- nrow (autos) - trainSize

Για να εξάγετε τις τιμές, πληκτρολογήστε το όνομα της μεταβλητής που χρησιμοποιήθηκε για την αποθήκευση της τιμής και πατήστε Enter. Εδώ είναι η έξοδος:

>> trainSize [1] 279> testSize [1] 119

Αυτός ο κώδικας καθορίζει τα μεγέθη των συνόλων δεδομένων που σκοπεύετε να κάνετε τα σύνολα δεδομένων εκπαίδευσης και δοκιμών. Δεν έχετε ακόμα δημιουργήσει αυτά τα σύνολα. Επίσης, δεν θέλετε απλά να καλέσετε τις πρώτες 279 παρατηρήσεις του σετ εκπαίδευσης και να καλέσετε τις τελευταίες 119 παρατηρήσεις του σετ δοκιμών. Αυτό θα δημιουργούσε ένα κακό μοντέλο επειδή το σύνολο δεδομένων φαίνεται να έχει παραγγελθεί. Συγκεκριμένα, η στήλη modelYear παραγγέλλεται από το μικρότερο στο μεγαλύτερο.

Είναι βαρύτερα

Έχουν οκτώ κύλινδροι

μεγαλύτερη μετατόπιση

Έχουν μεγαλύτερη ιπποδύναμη
Εντάξει, προφανώς πολλοί άνθρωποι γνωρίζουν κάτι για τα αυτοκίνητα, οπότε μια εικασία για το τι οι συσχετισμοί δεν θα είναι πάρα πολύ μακριά, αφού δείτε τα δεδομένα. Κάποιος με πολλή γνώση αυτοκινήτων μπορεί να το έχει ήδη γνωρίσει χωρίς να δει τα δεδομένα.
Αυτό είναι απλώς ένα απλό παράδειγμα ενός τομέα (αυτοκίνητα) με τον οποίο μπορούν να συσχετιστούν πολλοί άνθρωποι. Εάν όμως ήταν στοιχεία για τον καρκίνο, οι περισσότεροι άνθρωποι δεν θα καταλάβαιναν αμέσως τι σημαίνει κάθε χαρακτηριστικό.
Σε αυτό το σημείο, ένας εμπειρογνώμονας τομέα και ένας διαμορφωτής δεδομένων είναι ζωτικής σημασίας για τη διαδικασία μοντελοποίησης. Οι εμπειρογνώμονες τομέα μπορεί να έχουν τις καλύτερες γνώσεις σχετικά με ποια χαρακτηριστικά μπορεί να είναι τα περισσότερα (ή λιγότερο) σημαντικά - και πώς τα χαρακτηριστικά συσχετίζονται μεταξύ τους.

Μπορούν να προτείνουν στον μοντέλο δεδομένων ποιες μεταβλητές να πειραματιστούν. Μπορούν να δώσουν μεγαλύτερα βάρη σε πιο σημαντικά χαρακτηριστικά ή / και μικρότερα βάρη σε χαρακτηριστικά ελάχιστης σημασίας (ή να τα αφαιρέσουν εντελώς).

Θα πρέπει λοιπόν να δημιουργήσετε ένα σύνολο δεδομένων κατάρτισης και ένα σύνολο δεδομένων δοκιμών που να είναι πραγματικά αντιπροσωπευτικό του συνόλου. Ένας τρόπος για να το κάνετε είναι να δημιουργήσετε το σύνολο εκπαίδευσης από τυχαία επιλογή ολόκληρου του συνόλου δεδομένων.Επιπλέον, θέλετε να κάνετε αυτό το τεστ αναπαραγώγιμο ώστε να μπορείτε να μάθετε από το ίδιο παράδειγμα.

Ρυθμίστε έτσι τον σπόρο για την τυχαία γεννήτρια έτσι θα έχουμε το ίδιο "τυχαίο" σετ εκπαίδευσης. Ο ακόλουθος κώδικας κάνει αυτήν την εργασία: >> που έχει οριστεί. σπόρος (123)> δείκτες κατάρτισης <- δείγμα (seq_len (nrow (autos)), size = trainSize)> trainSet testSet < (mpg) κάθε παρατήρησης. Ο αλγόριθμος παλινδρόμησης χρησιμοποιεί το αποτέλεσμα για την εκπαίδευση του μοντέλου εξετάζοντας τις σχέσεις μεταξύ των μεταβλητών πρόβλεψης (οποιοδήποτε από τα επτά χαρακτηριστικά) και της μεταβλητής απόκρισης (mpg).

Το σετ δοκιμών περιέχει τα υπόλοιπα δεδομένα (δηλαδή το τμήμα που δεν περιλαμβάνεται στο σετ εκπαίδευσης). Θα πρέπει να παρατηρήσετε ότι το σετ δοκιμών περιλαμβάνει επίσης τη μεταβλητή απόκρισης (mpg).

Όταν χρησιμοποιείτε τη λειτουργία πρόβλεψης (από το μοντέλο) με το σετ δοκιμής, αγνοεί τη μεταβλητή απόκρισης και χρησιμοποιεί τις μεταβλητές πρόβλεψης μόνο εφόσον τα ονόματα των στηλών είναι τα ίδια με εκείνα του σετ εκπαίδευσης.

Για να δημιουργήσετε ένα μοντέλο γραμμικής παλινδρόμησης που χρησιμοποιεί το χαρακτηριστικό mpg ως μεταβλητή απόκρισης και όλες τις άλλες μεταβλητές ως μεταβλητές πρόβλεψης, πληκτρολογήστε την ακόλουθη γραμμή κώδικα: >> model