Πώς να προετοιμάσετε τα δεδομένα για την Προγνωστική Ανάλυση - Dummies

Βίντεο: Διαζύγιο, Πως Να Προετοιμάσετε Το Παιδί Σας 2024

Όταν μαθαίνετε μια νέα γλώσσα προγραμματισμού, είναι συνηθισμένο να γράφετε το πρόγραμμα "hello world". Για την εκμάθηση μηχανών και τις προγνωστικές αναλύσεις, η δημιουργία ενός μοντέλου για την ταξινόμηση του συνόλου δεδομένων Iris είναι το αντίστοιχο πρόγραμμα "hello world". Αυτό είναι ένα μάλλον απλό παράδειγμα, αλλά είναι πολύ αποτελεσματικό στη διδασκαλία των βασικών αρχών της μηχανικής μάθησης και των προγνωστικών αναλύσεων.

Πώς να πάρετε το δείγμα δεδομένων

Για να δημιουργήσετε το μοντέλο πρόβλεψης, θα χρειαστεί να κατεβάσετε το δείγμα δεδομένων Iris. Αυτό το σύνολο δεδομένων είναι ελεύθερα διαθέσιμο από πολλές πηγές, ειδικά σε ακαδημαϊκά ιδρύματα που διαθέτουν τμήματα μηχανικής μάθησης. Ευτυχώς, οι λαοί ήταν αρκετά συμπαθητικοί ώστε να συμπεριλάβουν ορισμένα δείγματα δεδομένων και λειτουργίες φόρτωσης δεδομένων μαζί με το πακέτο τους. Για τους σκοπούς αυτών των παραδειγμάτων, θα χρειαστεί να εκτελέσετε μόνο μερικές απλές γραμμές κώδικα για να φορτώσετε τα δεδομένα.

Πώς να προσθέσετε ετικέτα στα δεδομένα σας

Ακολουθεί μια παρατήρηση και τα χαρακτηριστικά της από κάθε κλάση του συνόλου δεδομένων Iris Flower.

Μήκος Sepal	Πλάτος Sepal	Μήκος Πεταλούδας	Πλάτος Petal	Κλάση / Ετικέτα Target
5. 1	3. 5	1. 4	0. 2	Setosa (0)
7. 0	3. 2	4. 7	1. 4	Versicolor (1)
6. 3	3. 3	6. 0	2. 5	Virginica (2)

Το σύνολο δεδομένων Iris Flower είναι ένα πραγματικό πολλαπλών φύλλων δεδομένων από τρεις κατηγορίες του λουλουδιού Iris ( Iris setosa, Iris virginica, και Iris versicolor Ronald Fisher στο άρθρο του του 1936, "Η χρήση πολλαπλών μετρήσεων σε ταξινομικά προβλήματα. "Αυτό το σύνολο δεδομένων είναι γνωστό για την εκτεταμένη χρήση του στον ακαδημαϊκό χώρο για μηχανική μάθηση και στατιστικές.

Το σύνολο δεδομένων αποτελείται από 150 συνολικά περιστατικά, με 50 περιπτώσεις από κάθε μία από τις 3 κατηγορίες του λουλουδιού Iris. Το δείγμα έχει 4 χαρακτηριστικά γνωρίσματα (συνήθως αποκαλούμενα χαρακτηριστικά ), τα οποία είναι οι μετρήσεις μήκους και πλάτους των σέπαλ και των πετάλων.

Το ενδιαφέρον μέρος αυτής της δέσμης στοιχείων είναι ότι οι τρεις κατηγορίες είναι κάπως γραμμικά διαχωρίσιμες. Η κατηγορία Setosa μπορεί να διαχωριστεί από τις άλλες δύο κατηγορίες, σχεδιάζοντας μια ευθεία γραμμή στο γράφημα μεταξύ τους. Οι κλάσεις Virginica και Versicolor δεν μπορούν να χωριστούν απόλυτα χρησιμοποιώντας μια ευθεία γραμμή - παρόλο που είναι κοντά. Αυτό το καθιστά ένα τέλειο σύνολο υποψήφιων δεδομένων για ανάλυση ταξινόμησης αλλά όχι τόσο καλό για ανάλυση ομαδοποίησης.

Τα δεδομένα δείγματος είχαν ήδη επισημανθεί. Η δεξιά στήλη (ετικέτα) παραπάνω δείχνει τα ονόματα κάθε κατηγορίας του λουλουδιού Iris.Το όνομα της κλάσης ονομάζεται ετικέτα ή στόχος. είναι συνήθως ανατεθεί σε μια μεταβλητή που ονομάζεται y . Είναι βασικά το αποτέλεσμα ή το αποτέλεσμα αυτού που προβλέπεται.

Στις στατιστικές και στη μοντελοποίηση αναφέρεται συχνά ως εξαρτώμενη μεταβλητή . Εξαρτάται από τις εισόδους που αντιστοιχούν στο μήκος και το πλάτος του σέλου και στο μήκος και το πλάτος του πέτου.

Μπορεί επίσης να θέλετε να μάθετε τι είναι διαφορετικό για το προεπεξεργασμένο σύνολο δεδομένων Iris, σε σύγκριση με το αρχικό σύνολο δεδομένων. Για να μάθετε, πρέπει να αποκτήσετε το αρχικό αρχείο δεδομένων. Μπορείτε να κάνετε μια αναζήτηση Google για σύνολο δεδομένων ίριδας και να την κατεβάσετε ή να την δείτε από οποιοδήποτε ακαδημαϊκό ίδρυμα.

Το αποτέλεσμα που έρχεται συνήθως είναι το πακέτο δεδομένων του πανεπιστημίου της California of Irvine (UCI). Το σύνολο δεδομένων Iris στην αρχική του κατάσταση από το αποθετήριο μάθησης UCI μπορεί να βρεθεί στον ιστότοπο UCI.

Αν το κατεβάσετε, θα πρέπει να μπορείτε να το δείτε με οποιοδήποτε πρόγραμμα επεξεργασίας κειμένου. Κατά την προβολή των δεδομένων στο αρχείο, θα παρατηρήσετε ότι υπάρχουν πέντε στήλες σε κάθε σειρά. Οι πρώτες τέσσερις στήλες είναι οι μετρήσεις (που αναφέρονται ως χαρακτηριστικά ) και η τελευταία στήλη είναι η ετικέτα. Η ετικέτα διαφέρει μεταξύ της αρχικής και της scikit εκδοχής του συνόλου δεδομένων Iris.

Μια άλλη διαφορά είναι η πρώτη σειρά του αρχείου δεδομένων. Περιλαμβάνει μια σειρά κεφαλίδας που χρησιμοποιείται από τη λειτουργία φόρτωσης δεδομένων scikit. Δεν έχει καμία επίδραση στους ίδιους τους αλγόριθμους.

Η κανονικοποίηση των χαρακτηριστικών σε αριθμούς και όχι η διατήρησή τους ως κειμένου καθιστά ευκολότερο τον επεξεργασμό των αλγορίθμων - και είναι πολύ πιο αποδοτικό στη μνήμη. Αυτό είναι ιδιαίτερα εμφανές αν τρέχετε πολύ μεγάλα σύνολα δεδομένων με πολλά χαρακτηριστικά - κάτι που συμβαίνει συχνά σε πραγματικά σενάρια.

Εδώ είναι δείγματα δεδομένων και από τα δύο αρχεία. Όλες οι στήλες δεδομένων είναι οι ίδιες εκτός από το Col5. Σημειώστε ότι το scikit έχει ονόματα τάξεων με αριθμητικές ετικέτες. το αρχικό αρχείο έχει ετικέτες κειμένου.

Πηγή	Col1	Col2	Col3	Col4	Col5
scikit	5. 1	3. 5	1. 4	0. 2	0
αρχικό	5. 1	3. 5	1. 4	0. 2	Iris-setosa
scikit	7. 0	3. 2	4. 7	1. 4	1
πρωτότυπο	7. 0	3. 2	4. 7	1. 4	Iris-versicolor
scikit	6. 3	3. 3	6. 0	2. 5	2
πρωτότυπο	6. 3	3. 3	6. 0	2. 5	Iris-virginica