Σπίτι Προσωπικά Οικονομικά Πώς να προετοιμάσετε τα δεδομένα για την Προγνωστική Ανάλυση - Dummies

Πώς να προετοιμάσετε τα δεδομένα για την Προγνωστική Ανάλυση - Dummies

Πίνακας περιεχομένων:

Βίντεο: Διαζύγιο, Πως Να Προετοιμάσετε Το Παιδί Σας 2024

Βίντεο: Διαζύγιο, Πως Να Προετοιμάσετε Το Παιδί Σας 2024
Anonim

Όταν μαθαίνετε μια νέα γλώσσα προγραμματισμού, είναι συνηθισμένο να γράφετε το πρόγραμμα "hello world". Για την εκμάθηση μηχανών και τις προγνωστικές αναλύσεις, η δημιουργία ενός μοντέλου για την ταξινόμηση του συνόλου δεδομένων Iris είναι το αντίστοιχο πρόγραμμα "hello world". Αυτό είναι ένα μάλλον απλό παράδειγμα, αλλά είναι πολύ αποτελεσματικό στη διδασκαλία των βασικών αρχών της μηχανικής μάθησης και των προγνωστικών αναλύσεων.

Πώς να πάρετε το δείγμα δεδομένων

Για να δημιουργήσετε το μοντέλο πρόβλεψης, θα χρειαστεί να κατεβάσετε το δείγμα δεδομένων Iris. Αυτό το σύνολο δεδομένων είναι ελεύθερα διαθέσιμο από πολλές πηγές, ειδικά σε ακαδημαϊκά ιδρύματα που διαθέτουν τμήματα μηχανικής μάθησης. Ευτυχώς, οι λαοί ήταν αρκετά συμπαθητικοί ώστε να συμπεριλάβουν ορισμένα δείγματα δεδομένων και λειτουργίες φόρτωσης δεδομένων μαζί με το πακέτο τους. Για τους σκοπούς αυτών των παραδειγμάτων, θα χρειαστεί να εκτελέσετε μόνο μερικές απλές γραμμές κώδικα για να φορτώσετε τα δεδομένα.

Πώς να προσθέσετε ετικέτα στα δεδομένα σας

Ακολουθεί μια παρατήρηση και τα χαρακτηριστικά της από κάθε κλάση του συνόλου δεδομένων Iris Flower.

Μήκος Sepal Πλάτος Sepal Μήκος Πεταλούδας Πλάτος Petal Κλάση / Ετικέτα Target
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

Το σύνολο δεδομένων Iris Flower είναι ένα πραγματικό πολλαπλών φύλλων δεδομένων από τρεις κατηγορίες του λουλουδιού Iris ( Iris setosa, Iris virginica, και Iris versicolor Ronald Fisher στο άρθρο του του 1936, "Η χρήση πολλαπλών μετρήσεων σε ταξινομικά προβλήματα. "Αυτό το σύνολο δεδομένων είναι γνωστό για την εκτεταμένη χρήση του στον ακαδημαϊκό χώρο για μηχανική μάθηση και στατιστικές.

Το σύνολο δεδομένων αποτελείται από 150 συνολικά περιστατικά, με 50 περιπτώσεις από κάθε μία από τις 3 κατηγορίες του λουλουδιού Iris. Το δείγμα έχει 4 χαρακτηριστικά γνωρίσματα (συνήθως αποκαλούμενα χαρακτηριστικά ), τα οποία είναι οι μετρήσεις μήκους και πλάτους των σέπαλ και των πετάλων.

Το ενδιαφέρον μέρος αυτής της δέσμης στοιχείων είναι ότι οι τρεις κατηγορίες είναι κάπως γραμμικά διαχωρίσιμες. Η κατηγορία Setosa μπορεί να διαχωριστεί από τις άλλες δύο κατηγορίες, σχεδιάζοντας μια ευθεία γραμμή στο γράφημα μεταξύ τους. Οι κλάσεις Virginica και Versicolor δεν μπορούν να χωριστούν απόλυτα χρησιμοποιώντας μια ευθεία γραμμή - παρόλο που είναι κοντά. Αυτό το καθιστά ένα τέλειο σύνολο υποψήφιων δεδομένων για ανάλυση ταξινόμησης αλλά όχι τόσο καλό για ανάλυση ομαδοποίησης.

Τα δεδομένα δείγματος είχαν ήδη επισημανθεί. Η δεξιά στήλη (ετικέτα) παραπάνω δείχνει τα ονόματα κάθε κατηγορίας του λουλουδιού Iris.Το όνομα της κλάσης ονομάζεται ετικέτα ή στόχος. είναι συνήθως ανατεθεί σε μια μεταβλητή που ονομάζεται y . Είναι βασικά το αποτέλεσμα ή το αποτέλεσμα αυτού που προβλέπεται.

Στις στατιστικές και στη μοντελοποίηση αναφέρεται συχνά ως εξαρτώμενη μεταβλητή . Εξαρτάται από τις εισόδους που αντιστοιχούν στο μήκος και το πλάτος του σέλου και στο μήκος και το πλάτος του πέτου.

Μπορεί επίσης να θέλετε να μάθετε τι είναι διαφορετικό για το προεπεξεργασμένο σύνολο δεδομένων Iris, σε σύγκριση με το αρχικό σύνολο δεδομένων. Για να μάθετε, πρέπει να αποκτήσετε το αρχικό αρχείο δεδομένων. Μπορείτε να κάνετε μια αναζήτηση Google για σύνολο δεδομένων ίριδας και να την κατεβάσετε ή να την δείτε από οποιοδήποτε ακαδημαϊκό ίδρυμα.

Το αποτέλεσμα που έρχεται συνήθως είναι το πακέτο δεδομένων του πανεπιστημίου της California of Irvine (UCI). Το σύνολο δεδομένων Iris στην αρχική του κατάσταση από το αποθετήριο μάθησης UCI μπορεί να βρεθεί στον ιστότοπο UCI.

Αν το κατεβάσετε, θα πρέπει να μπορείτε να το δείτε με οποιοδήποτε πρόγραμμα επεξεργασίας κειμένου. Κατά την προβολή των δεδομένων στο αρχείο, θα παρατηρήσετε ότι υπάρχουν πέντε στήλες σε κάθε σειρά. Οι πρώτες τέσσερις στήλες είναι οι μετρήσεις (που αναφέρονται ως χαρακτηριστικά ) και η τελευταία στήλη είναι η ετικέτα. Η ετικέτα διαφέρει μεταξύ της αρχικής και της scikit εκδοχής του συνόλου δεδομένων Iris.

Μια άλλη διαφορά είναι η πρώτη σειρά του αρχείου δεδομένων. Περιλαμβάνει μια σειρά κεφαλίδας που χρησιμοποιείται από τη λειτουργία φόρτωσης δεδομένων scikit. Δεν έχει καμία επίδραση στους ίδιους τους αλγόριθμους.

Η κανονικοποίηση των χαρακτηριστικών σε αριθμούς και όχι η διατήρησή τους ως κειμένου καθιστά ευκολότερο τον επεξεργασμό των αλγορίθμων - και είναι πολύ πιο αποδοτικό στη μνήμη. Αυτό είναι ιδιαίτερα εμφανές αν τρέχετε πολύ μεγάλα σύνολα δεδομένων με πολλά χαρακτηριστικά - κάτι που συμβαίνει συχνά σε πραγματικά σενάρια.

Εδώ είναι δείγματα δεδομένων και από τα δύο αρχεία. Όλες οι στήλες δεδομένων είναι οι ίδιες εκτός από το Col5. Σημειώστε ότι το scikit έχει ονόματα τάξεων με αριθμητικές ετικέτες. το αρχικό αρχείο έχει ετικέτες κειμένου.

Πηγή Col1 Col2 Col3 Col4 Col5
scikit 5. 1 3. 5 1. 4 0. 2 0
αρχικό 5. 1 3. 5 1. 4 0. 2 Iris-setosa
scikit 7. 0 3. 2 4. 7 1. 4 1
πρωτότυπο 7. 0 3. 2 4. 7 1. 4 Iris-versicolor
scikit 6. 3 3. 3 6. 0 2. 5 2
πρωτότυπο 6. 3 3. 3 6. 0 2. 5 Iris-virginica
Πώς να προετοιμάσετε τα δεδομένα για την Προγνωστική Ανάλυση - Dummies

Η επιλογή των συντακτών

Εξαρτήματα ηλεκτρονικών: Ενισχυτές ανοιχτού βρόχου

Εξαρτήματα ηλεκτρονικών: Ενισχυτές ανοιχτού βρόχου

Οι πιο βασικές ηλεκτρονικές χρήσεις ενός ενισχυτή Op είναι ως ενισχυτής. Εάν συνδέσετε μια πηγή εισόδου σε έναν από τους ακροδέκτες εισόδου και γειώσετε τον άλλο ακροδέκτη εισόδου, εμφανίζεται μια ενισχυμένη έκδοση του σήματος εισόδου στο εξωτερικό τερματικό. Μια σημαντική ιδέα στα κυκλώματα op-amp ...

Ηλεκτρονικά Στοιχεία: Δημοφιλή Op Amp Ενσωματωμένα Κυκλώματα - Dummy

Ηλεκτρονικά Στοιχεία: Δημοφιλή Op Amp Ενσωματωμένα Κυκλώματα - Dummy

Για την οικοδόμηση ενός πραγματικού ηλεκτρονικού κυκλώματος χρησιμοποιώντας Op-amp, φυσικά, θα πρέπει να χρησιμοποιήσετε ένα πραγματικό ενισχυτή op. Ευτυχώς, τα ενσωματωμένα ολοκληρωμένα κυκλώματα (IC) είναι άφθονα και σχεδόν όλα τα καταστήματα που πωλούν ηλεκτρονικά εξαρτήματα πωλούν διάφορους τύπους φθηνών IC-ενισχυτών. Το πιο δημοφιλές op-amp IC είναι το LM741, το οποίο έρχεται ...

Ηλεκτρονικά Συστατικά: Κύκλοι ταλαντωτών - ανδρείκελοι

Ηλεκτρονικά Συστατικά: Κύκλοι ταλαντωτών - ανδρείκελοι

. Η ακριβής κυματομορφή που παράγεται εξαρτάται από τον τύπο του κυκλώματος που χρησιμοποιείται για τη δημιουργία του ταλαντωτή. Ένα από τα συνηθέστερα χρησιμοποιούμενα κυκλώματα ταλαντωτών είναι κατασκευασμένο από ένα ζεύγος τρανζίστορ που είναι εφοδιασμένα για να εναλλάσσονται και να σβήνουν εναλλάξ. Αυτός ο τύπος κυκλώματος είναι ...

Η επιλογή των συντακτών

Ασκήσεις για ανδρείκελα Κατάρτιση για ανδρείκελα Εξάσκηση - ανδρείκελα

Ασκήσεις για ανδρείκελα Κατάρτιση για ανδρείκελα Εξάσκηση - ανδρείκελα

Η ασήμαντη εκπαίδευση είναι ένα σημαντικό βήμα στην ανάπτυξη των παιδιών. Ως γονέας, θα πρέπει να αναγνωρίσετε τα σημάδια ότι το παιδί σας είναι έτοιμο για την ομιλία της τουαλέτας, να ξεκινήσει μια διαδικασία ασήμαντης κατάρτισης, να συνεχίσει τη διαδικασία και να αναγνωρίσει πότε το παιδί σας είναι σχεδόν εκεί. Κατά τη διάρκεια της διαδρομής, πρέπει να σιγουρευτείτε ότι το παιδί σας ξέρει ...

Εκπαίδευση για παιδιά με αναπηρίες - ανδρείκελα

Εκπαίδευση για παιδιά με αναπηρίες - ανδρείκελα

Παιδιά, ανάλογα με την αναπηρία. Μπορεί να χρειαστεί να παρέχετε στηρίγματα υψηλής τεχνολογίας που διευκολύνουν την κίνηση από τον περιπατητή ή την αναπηρική καρέκλα στην τουαλέτα (δείτε την ενότητα "Εργασία με ειδικό εργαλείο" σε αυτό το άρθρο.) Από την άλλη πλευρά, το παιδί σας μπορεί να ...

Υποδηλώνουν ότι το παιδί σας είναι έτοιμο για ασήμαντη εκπαίδευση - ανδρείκελα

Υποδηλώνουν ότι το παιδί σας είναι έτοιμο για ασήμαντη εκπαίδευση - ανδρείκελα

Την ημέρα που κάθε γονιός επιθυμεί, αλλά δεν μπορείτε να βιάσετε τη διαδικασία. Περιμένετε τα σημάδια ότι το παιδί σας είναι έτοιμο να αντιμετωπίσει αυτή τη μεγάλη πρόκληση. Παρακολουθήστε τα σημεία στην παρακάτω λίστα. οι πρώτες πέντε είναι απολύτως απαραίτητες: μένει ξηρό τουλάχιστον δύο ώρες παίρνει Bummed από υγρό ή ...

Η επιλογή των συντακτών

Πώς να χρησιμοποιήσετε τη φαντασία σας για να χαλαρώσετε το σώμα σας για διαλογισμό - Dummies

Πώς να χρησιμοποιήσετε τη φαντασία σας για να χαλαρώσετε το σώμα σας για διαλογισμό - Dummies

Αναδυόμενο πεδίο της ιατρικής μυαλού-σώματος υπενθυμίζει στους ανθρώπους - και γιόγκι και σοφοί έχουν πει για χιλιετίες - το σώμα σας, το μυαλό σας και η καρδιά σας αποτελούν ένα ενιαίο και αδιάσπαστο σύνολο. Όταν οι σκέψεις σας συνεχίζουν να σφύζουν από την ανησυχία σας, το σώμα σας αποκρίνεται με τη σύσφιξη και την τάνυση, ειδικά σε ορισμένες σημαντικές θέσεις ...

Πώς να χρησιμοποιήσετε την προσοχή για τη διαχείριση του πόνου

Πώς να χρησιμοποιήσετε την προσοχή για τη διαχείριση του πόνου

Πόνος είναι κάτι που θα αντιμετωπίσει κάποιος σε κάποιο σημείο . Η προσοχή μπορεί να σας βοηθήσει να προσεγγίσετε πόνο με υγιεινό τρόπο. Ο οξύς πόνος είναι ένας αιχμηρός πόνος που διαρκεί για μικρό χρονικό διάστημα, μερικές φορές ορίζεται ως λιγότερο από 12 εβδομάδες. Η ιατρική είναι αρκετά καλή για τη θεραπεία του οξέος πόνου. Ο χρόνιος πόνος είναι ο πόνος που διαρκεί ...

Βελτίωση των σχέσεών σας - ανδρείκεS

Βελτίωση των σχέσεών σας - ανδρείκεS

Σχέσεις - είτε με την οικογένεια, τους φίλους ή τους εραστές; Και δεν έχει σημασία πόσο χαρούμενος και ευχαριστημένος είστε με τις σημαντικές σχέσεις στη ζωή σας, υπάρχει πάντα περιθώριο βελτίωσης. Οι σχέσεις, όπως όλες οι διεργασίες, επίσης καταλήγουν και ρέουν και σας παρουσιάζουν προκλήσεις. Εδώ είναι μερικές εξαιρετικές τεχνικές για να σας βοηθήσουμε ...