Σπίτι Προσωπικά Οικονομικά Επιστήμη δεδομένων: Χρήση της Python για την εκτέλεση του παράγοντα και της βασικής ανάλυσης εξαρτημάτων

Επιστήμη δεδομένων: Χρήση της Python για την εκτέλεση του παράγοντα και της βασικής ανάλυσης εξαρτημάτων

Πίνακας περιεχομένων:

Βίντεο: Data Analysis in R by Dustin Tran 2024

Βίντεο: Data Analysis in R by Dustin Tran 2024
Anonim

Οι επιστήμονες δεδομένων μπορούν να χρησιμοποιήσουν την Python για να εκτελέσουν την ανάλυση παραγόντων και βασικών συστατικών. Το SVD λειτουργεί απευθείας στις αριθμητικές τιμές των δεδομένων, αλλά μπορείτε επίσης να εκφράσετε δεδομένα ως σχέση μεταβλητών. Κάθε χαρακτηριστικό έχει μια συγκεκριμένη παραλλαγή. Μπορείτε να υπολογίσετε τη μεταβλητότητα ως μέτρο απόκλισης γύρω από τον μέσο όρο. Όσο μεγαλύτερη είναι η διακύμανση, τόσο περισσότερες πληροφορίες περιέχονται μέσα στη μεταβλητή.

Επιπλέον, αν τοποθετήσετε τη μεταβλητή σε ένα σετ, μπορείτε να συγκρίνετε τη διακύμανση δύο μεταβλητών για να προσδιορίσετε αν συσχετίζονται, το οποίο είναι ένα μέτρο για το πόσο ισχυρά έχουν παρόμοιες τιμές.

Έλεγχος όλων των πιθανών συσχετισμών μιας μεταβλητής με τις άλλες στο σύνολο, μπορείτε να ανακαλύψετε ότι μπορεί να έχετε δύο τύπους διακύμανσης:

  • Μοναδική διακύμανση: Ορισμένες διαφορές είναι μοναδικές για την εξεταζόμενη μεταβλητή. Δεν μπορεί να συσχετιστεί με το τι συμβαίνει σε οποιαδήποτε άλλη μεταβλητή.

  • Κοινόχρηστη διακύμανση: Μερικές διακυμάνσεις μοιράζονται με μία ή περισσότερες άλλες μεταβλητές, δημιουργώντας πλεονασμό στα δεδομένα. Ο πλεονασμός συνεπάγεται ότι μπορείτε να βρείτε τις ίδιες πληροφορίες, με ελαφρώς διαφορετικές τιμές, σε διάφορα χαρακτηριστικά και σε πολλές παρατηρήσεις.

Φυσικά, το επόμενο βήμα είναι να καθορίσουμε τον λόγο της κοινής διακύμανσης. Προσπαθώντας να απαντήσουμε σε μια τέτοια ερώτηση, καθώς και να καθορίσουμε πώς μπορούμε να αντιμετωπίσουμε τις μοναδικές και κοινές αποκλίσεις, οδήγησε στη δημιουργία ανάλυσης παράγοντα και κύριου στοιχείου.

Μελετώντας το ψυχομετρικό μοντέλο

Λίγο πριν εξεταστούν πολλοί αλγόριθμοι μηχανικής μάθησης, η ψυχολογία , η πειθαρχία στην ψυχολογία που ασχολείται με την ψυχολογική μέτρηση, προσπάθησε να βρει μια στατιστική λύση για την αποτελεσματική μέτρηση των διαστάσεων σε προσωπικότητα. Η ανθρώπινη προσωπικότητα, όπως και με άλλες πτυχές των ανθρώπων, δεν είναι άμεσα μετρήσιμη. Για παράδειγμα, δεν είναι δυνατόν να μετρήσουμε με ακρίβεια πόσο ένα άτομο είναι εσωστρεφές ή ευφυές. Τα ερωτηματολόγια και οι ψυχολογικές εξετάσεις υποδηλώνουν μόνο αυτές τις αξίες.

Οι ψυχολόγοι γνώριζαν το SVD και προσπάθησαν να το εφαρμόσουν στο πρόβλημα. Η κοινή διακύμανση προσέλκυσε την προσοχή τους: Εάν μερικές μεταβλητές είναι σχεδόν ίδιες, θα πρέπει να έχουν την ίδια ρίζα, νόμιζαν. Οι ψυχολόγοι δημιούργησαν

ανάλυση παράγοντα για να εκτελέσουν αυτό το έργο! Αντί να εφαρμόζουν SVD απευθείας στα δεδομένα, το εφάρμοσαν σε ένα νεοδημιουργημένο matrix που παρακολουθούσε την κοινή διακύμανση, ελπίζοντας να συμπυκνώσει όλες τις πληροφορίες και να ανακτήσει νέες χρήσιμες λειτουργίες που ονομάζονται fa c tors . Ψάχνετε για κρυμμένους παράγοντες

Ένας καλός τρόπος να δείξετε πώς να χρησιμοποιήσετε την ανάλυση παράγοντα είναι να ξεκινήσετε με το σύνολο δεδομένων Iris.

από το sklearn. σύνολο δεδομένων import_iris από το sklearn. Εισαγωγή αποσύνθεσης FactorAnysis iris = load_iris () X, y = ίριδα. δεδομένα, ίριδα. συντελεστής στόχος = ανάλυση παράγοντα (n_components = 4, random_state = 101). fit (X)

Μετά την φόρτωση των δεδομένων και την αποθήκευση όλων των χαρακτηριστικών πρόβλεψης, η κλάση FactorAnalysis αρχικοποιείται με ένα αίτημα αναζήτησης τεσσάρων παραγόντων. Στη συνέχεια τοποθετούνται τα δεδομένα. Μπορείτε να εξερευνήσετε τα αποτελέσματα παρατηρώντας το στοιχείο components_, το οποίο επιστρέφει έναν πίνακα που περιέχει μέτρα της σχέσης μεταξύ των νεοσύστατων παραγόντων, τοποθετημένων σε σειρές, και των αρχικών χαρακτηριστικών, τοποθετημένων σε στήλες.

Στη διασταύρωση κάθε παράγοντα και χαρακτηριστικού, ένας θετικός αριθμός δείχνει ότι υπάρχει μια θετική αναλογία μεταξύ των δύο. ένας αρνητικός αριθμός, αντιθέτως, επισημαίνει ότι αποκλίνουν και το ένα είναι το αντίθετο προς το άλλο.

Θα πρέπει να ελέγξετε διαφορετικές τιμές των n_components επειδή δεν είναι δυνατό να γνωρίζετε πόσα στοιχεία υπάρχουν στα δεδομένα. Εάν ο αλγόριθμος είναι απαραίτητος για περισσότερους από τους υπάρχοντες παράγοντες, θα δημιουργήσει συντελεστές με χαμηλές τιμές στον πίνακα στοιχείων.

εισαγάγετε pandas ως pd print pd. (Cm) το μήκος του πέτου (cm) το πλάτος των πετάλων (cm) 0 0,707227 -0. 153147 1. 653151 0. 701569 1 0. 114676 0. 159763 -0. 045604 -0. 014052 2 0. 000000 -0. 000000 -0. 000000 -0. 000000 3 -0. 000000 0. 000000 0. 000000 -0. 000000

Κατά τη δοκιμή στο σύνολο δεδομένων Iris, για παράδειγμα, οι προκύπτοντες παράγοντες πρέπει να είναι το πολύ 2, όχι 4, επειδή μόνο δύο παράγοντες έχουν σημαντικές συνδέσεις με τα αρχικά χαρακτηριστικά. Μπορείτε να χρησιμοποιήσετε αυτούς τους δύο παράγοντες ως νέες μεταβλητές στο έργο σας, επειδή αντικατοπτρίζουν ένα αόρατο αλλά σημαντικό χαρακτηριστικό που μνημονεύουν τα προηγουμένως διαθέσιμα δεδομένα.

Χρήση στοιχείων, όχι συντελεστές

Αν ένα SVD μπορεί να εφαρμοστεί με επιτυχία στην κοινή διακύμανση, ίσως να αναρωτιέστε γιατί δεν μπορείτε να το εφαρμόσετε σε όλες τις διακυμάνσεις. Χρησιμοποιώντας ένα ελαφρώς τροποποιημένο πίνακα εκκίνησης, όλες οι σχέσεις στα δεδομένα θα μπορούσαν να μειωθούν και να συμπιεστούν με παρόμοιο τρόπο με τον τρόπο που το κάνει το SVD.

Τα αποτελέσματα αυτής της διαδικασίας, τα οποία είναι αρκετά παρόμοια με το SVD, καλούνται

ανάλυση βασικών συστατικών (PCA). Οι νεοδημιουργηθείσες λειτουργίες ονομάζονται στοιχεία . Σε αντίθεση με τους παράγοντες, τα συστατικά δεν περιγράφονται ως η κύρια αιτία της δομής των δεδομένων, αλλά είναι ακριβώς αναδιαρθρωμένα δεδομένα, έτσι ώστε να τα βλέπετε ως μια μεγάλη έξυπνη αθροιστική ανάλυση των επιλεγμένων μεταβλητών. Για εφαρμογές επιστήμης δεδομένων, το PCA και το SVD είναι αρκετά παρόμοια. Ωστόσο, η PCA δεν επηρεάζεται από την κλίμακα των αρχικών χαρακτηριστικών (επειδή εργάζεται σε μέτρα συσχέτισης που δεσμεύονται μεταξύ των τιμών -1 και +1) και η PCA επικεντρώνεται στην ανοικοδόμηση της σχέσης μεταξύ των μεταβλητών, προσφέροντας έτσι διαφορετικά αποτελέσματα από το SVD.

Επίτευξη της μείωσης των διαστάσεων

Η διαδικασία επίτευξης μιας PCA είναι αρκετά παρόμοια με την ανάλυση παράγοντα.Η διαφορά είναι ότι δεν καθορίζετε τον αριθμό των στοιχείων που θα εξαχθούν. Αποφασίζετε αργότερα πόσες συνιστώσες πρέπει να διατηρήσετε αφού ελέγξετε το attribute_variance_ratio_, το οποίο παρέχει ποσοτικοποίηση της πληροφοριακής τιμής κάθε εξερχόμενου στοιχείου. Το παρακάτω παράδειγμα δείχνει πώς να εκτελέσετε αυτήν την εργασία:

από το sklearn. εισαγωγή αποσύνθεσης εισαγωγής PCA pandas ως pd pca = PCA (). fit (X) print 'Επεξήγηση διακύμανσης ανά στοιχείο:% s'% pca. explained_variance_ratio_ εκτύπωση pd. DataFrame (pca. Components_, columns = iris. Όνομα_ιδιοτήτων) Επεξήγηση διακύμανσης ανά συνιστώσα: [0. (Εκατοστά) πλάτος σέπαλ (cm) μήκος πετάλου (cm) πλάτος πετάλου (cm) 0 0,361590 -0. 082269 0. 856572 0. 358844 1 -0. 656540 -0. 729712 0. 175767 0. 074706 2 0. 580997 -0. 596418 -0. 072524 -0. 549061 3 0. 317255 -0. 324094 -0. 479719 0. 751121

Σε αυτή την αποσύνθεση του συνόλου δεδομένων Iris, η συστοιχία φορέων που παρέχεται από explained_variance_ratio_ δείχνει ότι οι περισσότερες πληροφορίες συγκεντρώνονται στο πρώτο συστατικό (92,5%). Επομένως, είναι δυνατόν να μειωθεί ολόκληρο το σύνολο δεδομένων σε δύο μόνο στοιχεία, παρέχοντας μείωση θορύβου και περιττές πληροφορίες από το αρχικό σύνολο δεδομένων.
Επιστήμη δεδομένων: Χρήση της Python για την εκτέλεση του παράγοντα και της βασικής ανάλυσης εξαρτημάτων

Η επιλογή των συντακτών

Εξαρτήματα ηλεκτρονικών: Ενισχυτές ανοιχτού βρόχου

Εξαρτήματα ηλεκτρονικών: Ενισχυτές ανοιχτού βρόχου

Οι πιο βασικές ηλεκτρονικές χρήσεις ενός ενισχυτή Op είναι ως ενισχυτής. Εάν συνδέσετε μια πηγή εισόδου σε έναν από τους ακροδέκτες εισόδου και γειώσετε τον άλλο ακροδέκτη εισόδου, εμφανίζεται μια ενισχυμένη έκδοση του σήματος εισόδου στο εξωτερικό τερματικό. Μια σημαντική ιδέα στα κυκλώματα op-amp ...

Ηλεκτρονικά Στοιχεία: Δημοφιλή Op Amp Ενσωματωμένα Κυκλώματα - Dummy

Ηλεκτρονικά Στοιχεία: Δημοφιλή Op Amp Ενσωματωμένα Κυκλώματα - Dummy

Για την οικοδόμηση ενός πραγματικού ηλεκτρονικού κυκλώματος χρησιμοποιώντας Op-amp, φυσικά, θα πρέπει να χρησιμοποιήσετε ένα πραγματικό ενισχυτή op. Ευτυχώς, τα ενσωματωμένα ολοκληρωμένα κυκλώματα (IC) είναι άφθονα και σχεδόν όλα τα καταστήματα που πωλούν ηλεκτρονικά εξαρτήματα πωλούν διάφορους τύπους φθηνών IC-ενισχυτών. Το πιο δημοφιλές op-amp IC είναι το LM741, το οποίο έρχεται ...

Ηλεκτρονικά Συστατικά: Κύκλοι ταλαντωτών - ανδρείκελοι

Ηλεκτρονικά Συστατικά: Κύκλοι ταλαντωτών - ανδρείκελοι

. Η ακριβής κυματομορφή που παράγεται εξαρτάται από τον τύπο του κυκλώματος που χρησιμοποιείται για τη δημιουργία του ταλαντωτή. Ένα από τα συνηθέστερα χρησιμοποιούμενα κυκλώματα ταλαντωτών είναι κατασκευασμένο από ένα ζεύγος τρανζίστορ που είναι εφοδιασμένα για να εναλλάσσονται και να σβήνουν εναλλάξ. Αυτός ο τύπος κυκλώματος είναι ...

Η επιλογή των συντακτών

Ασκήσεις για ανδρείκελα Κατάρτιση για ανδρείκελα Εξάσκηση - ανδρείκελα

Ασκήσεις για ανδρείκελα Κατάρτιση για ανδρείκελα Εξάσκηση - ανδρείκελα

Η ασήμαντη εκπαίδευση είναι ένα σημαντικό βήμα στην ανάπτυξη των παιδιών. Ως γονέας, θα πρέπει να αναγνωρίσετε τα σημάδια ότι το παιδί σας είναι έτοιμο για την ομιλία της τουαλέτας, να ξεκινήσει μια διαδικασία ασήμαντης κατάρτισης, να συνεχίσει τη διαδικασία και να αναγνωρίσει πότε το παιδί σας είναι σχεδόν εκεί. Κατά τη διάρκεια της διαδρομής, πρέπει να σιγουρευτείτε ότι το παιδί σας ξέρει ...

Εκπαίδευση για παιδιά με αναπηρίες - ανδρείκελα

Εκπαίδευση για παιδιά με αναπηρίες - ανδρείκελα

Παιδιά, ανάλογα με την αναπηρία. Μπορεί να χρειαστεί να παρέχετε στηρίγματα υψηλής τεχνολογίας που διευκολύνουν την κίνηση από τον περιπατητή ή την αναπηρική καρέκλα στην τουαλέτα (δείτε την ενότητα "Εργασία με ειδικό εργαλείο" σε αυτό το άρθρο.) Από την άλλη πλευρά, το παιδί σας μπορεί να ...

Υποδηλώνουν ότι το παιδί σας είναι έτοιμο για ασήμαντη εκπαίδευση - ανδρείκελα

Υποδηλώνουν ότι το παιδί σας είναι έτοιμο για ασήμαντη εκπαίδευση - ανδρείκελα

Την ημέρα που κάθε γονιός επιθυμεί, αλλά δεν μπορείτε να βιάσετε τη διαδικασία. Περιμένετε τα σημάδια ότι το παιδί σας είναι έτοιμο να αντιμετωπίσει αυτή τη μεγάλη πρόκληση. Παρακολουθήστε τα σημεία στην παρακάτω λίστα. οι πρώτες πέντε είναι απολύτως απαραίτητες: μένει ξηρό τουλάχιστον δύο ώρες παίρνει Bummed από υγρό ή ...

Η επιλογή των συντακτών

Πώς να χρησιμοποιήσετε τη φαντασία σας για να χαλαρώσετε το σώμα σας για διαλογισμό - Dummies

Πώς να χρησιμοποιήσετε τη φαντασία σας για να χαλαρώσετε το σώμα σας για διαλογισμό - Dummies

Αναδυόμενο πεδίο της ιατρικής μυαλού-σώματος υπενθυμίζει στους ανθρώπους - και γιόγκι και σοφοί έχουν πει για χιλιετίες - το σώμα σας, το μυαλό σας και η καρδιά σας αποτελούν ένα ενιαίο και αδιάσπαστο σύνολο. Όταν οι σκέψεις σας συνεχίζουν να σφύζουν από την ανησυχία σας, το σώμα σας αποκρίνεται με τη σύσφιξη και την τάνυση, ειδικά σε ορισμένες σημαντικές θέσεις ...

Πώς να χρησιμοποιήσετε την προσοχή για τη διαχείριση του πόνου

Πώς να χρησιμοποιήσετε την προσοχή για τη διαχείριση του πόνου

Πόνος είναι κάτι που θα αντιμετωπίσει κάποιος σε κάποιο σημείο . Η προσοχή μπορεί να σας βοηθήσει να προσεγγίσετε πόνο με υγιεινό τρόπο. Ο οξύς πόνος είναι ένας αιχμηρός πόνος που διαρκεί για μικρό χρονικό διάστημα, μερικές φορές ορίζεται ως λιγότερο από 12 εβδομάδες. Η ιατρική είναι αρκετά καλή για τη θεραπεία του οξέος πόνου. Ο χρόνιος πόνος είναι ο πόνος που διαρκεί ...

Βελτίωση των σχέσεών σας - ανδρείκεS

Βελτίωση των σχέσεών σας - ανδρείκεS

Σχέσεις - είτε με την οικογένεια, τους φίλους ή τους εραστές; Και δεν έχει σημασία πόσο χαρούμενος και ευχαριστημένος είστε με τις σημαντικές σχέσεις στη ζωή σας, υπάρχει πάντα περιθώριο βελτίωσης. Οι σχέσεις, όπως όλες οι διεργασίες, επίσης καταλήγουν και ρέουν και σας παρουσιάζουν προκλήσεις. Εδώ είναι μερικές εξαιρετικές τεχνικές για να σας βοηθήσουμε ...