Βίντεο: Διαζύγιο, Πως Να Προετοιμάσετε Το Παιδί Σας 2024
Πρέπει να λάβετε τα δεδομένα σε μια μορφή που ο αλγόριθμος μπορεί να χρησιμοποιήσει για να δημιουργήσει ένα προγνωστικό αναλυτικό μοντέλο. Για να γίνει αυτό, πρέπει να αφιερώσετε λίγο χρόνο για να κατανοήσετε τα δεδομένα και να μάθετε τη δομή των δεδομένων. Πληκτρολογήστε τη λειτουργία για να μάθετε τη δομή των δεδομένων. Η εντολή και η έξοδος της εμφανίζονται ως εξής: >> str (autos) 'δεδομένα. frame ': 398 obs. από 9 μεταβλητές: $ V1: num 18 15 18 16 17 15 14 14 14 15 … $ V2: int 8 8 8 8 8 8 8 8 8 8 … $ V3: num 307 350 318 304 302 429 454 440 455 390 … $ V4: chr "130. 0" "165. 0" "150. 0" "150. 0" … $ V5: num 3504 3693 3436 3433 3449 … $ V6: num 12 11. 5 11 12 10. 5 10 9 8 5 10 8 5 … $ V7: int 70 70 70 70 70 70 70 70 70 70 … $ V8: int 1 1 1 1 1 1 1 1 1 1 … $ V9: Παράμετρος w / 305 επίπεδα "amc πρεσβευτής brougham", …:
50 37 232 15 162 142 55 224 242 2 …Από την εξέταση της δομής, μπορείτε να πείτε ότι υπάρχει κάποια προετοιμασία δεδομένων και καθαρισμός. Ακολουθεί μια λίστα με τις απαιτούμενες εργασίες:
-
Αυτό δεν είναι απολύτως απαραίτητο, αλλά για τους σκοπούς αυτού του παραδείγματος, είναι καλύτερο να χρησιμοποιήσετε ονόματα στηλών που μπορείτε να καταλάβετε και να θυμάστε.
Αλλάξτε τον τύπο δεδομένων V4 (
-
ιπποδύναμη ) σε έναν τύπο δεδομένων αριθμητικό . Σε αυτό το παράδειγμα, η ιπποδύναμη είναι μια συνεχής αριθμητική τιμή και όχι ένας τύπος δεδομένων χαρακτήρων.
Χειριστείτε τις τιμές που λείπουν.
-
Αλλάξτε τα χαρακτηριστικά που έχουν διακριτές τιμές σε παράγοντες.
-
Εδώ οι κύλινδροι, το έτος μοντέλου και η προέλευση έχουν διακριτές τιμές.
Απορρίψτε το χαρακτηριστικό V9 (
-
όνομα αυτοκινήτου ). Το όνομα του αυτοκινήτου δεν προσθέτει αξία στο μοντέλο που δημιουργείτε. Εάν δεν δόθηκε το χαρακτηριστικό προέλευσης, θα μπορούσατε να έχετε αποκομίσει την προέλευση από το χαρακτηριστικό όνομα ονόματος αυτοκινήτου.
κωδικοι (autos) <-
c ("mpg", "κυλινδρικοί", "μετατόπιση", "ιπποδύναμη" "
" carName ")Στη συνέχεια, αλλάξτε τον τύπο δεδομένων ιπποδύναμης σε αριθμητικό με τον ακόλουθο κώδικα: >> autos $ horsepower <- όπως και. αριθμητικό (autos $ ιπποδύναμη)
Το πρόγραμμα θα παραπονεθεί επειδή όλες οι τιμές σε ιπποδύναμη δεν ήταν συμβολικές συμβολές αριθμών. Υπήρξαν κάποιες τιμές που λείπουν που αναπαρίστανταν ως "? "Χαρακτήρα. Αυτό είναι ωραία για τώρα, επειδή R μετατρέπει κάθε περίπτωση; σε NA.
Ένας συνήθης τρόπος για να χειριστείτε τις ελλείπουσες τιμές συνεχών μεταβλητών είναι να αντικαταστήσετε κάθε τιμή που λείπει με τη μέση τιμή ολόκληρης της στήλης. Η παρακάτω γραμμή κώδικα κάνει ότι: >> autos $ horsepower [είναι.na (autos $ horsepower)] <- σημαίνει (autos $ horsepower, na. rm = TRUE)
Είναι σημαντικό να έχετε na. rm-TRUE στη μέση λειτουργία. Λέει στη συνάρτηση να μην χρησιμοποιεί στήλες με τιμές null στον υπολογισμό της. Χωρίς αυτό, η λειτουργία θα επιστρέψει.
Στη συνέχεια, αλλάξτε τις ιδιότητες με διακριτές τιμές σε παράγοντες. Τρία χαρακτηριστικά έχουν αναγνωριστεί ως διακριτά. Οι ακόλουθες τρεις γραμμές κώδικα αλλάζουν τα χαρακτηριστικά. >> autos $ προέλευση αυτοκινήτου $ modelYear autos $ cylinders <- factor (autos $ cylinders)
Τέλος, αφαιρέστε το χαρακτηριστικό από το πλαίσιο δεδομένων με αυτή τη γραμμή κώδικα: >> autos $ carName <- nULL < Σε αυτό το σημείο, ολοκληρώσατε την προετοιμασία των δεδομένων για τη διαδικασία μοντελοποίησης. Το παρακάτω είναι μια άποψη της δομής μετά τη διαδικασία επεξεργασίας δεδομένων: δεδομένα >> str (autos). frame ': 398 obs. από 8 μεταβλητές: $ mpg: num 18 15 18 16 17 15 14 14 14 15 … $ κύλινδροι: Παράγοντας με 5 επίπεδα "3", "4", "5", "6", …:
5 5 5 5 5 5 5 5 5 5 … $ εκτόπισμα: num 307 350 318 304 302 429 454 440 455 390 … $ ιπποδύναμη: num 130 165 150 150 140 198 220 215 225 190 … $ weight: num 3504 3693 3436 3433 3449 … $ επιτάχυνση: αριθμός 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ modelYear: Παράγοντας με 13 επίπεδα "70", "71", "72", …:
1 1 1 1 1 1 1 1 1 … $ προέλευση: Παράγοντας με 3 επίπεδα "1", "2", "3":
1 1 1 1 1 1 1 1 1 1 …