Επιστήμη δεδομένων: Χρήση της Python για την εκτέλεση του παράγοντα και της βασικής ανάλυσης εξαρτημάτων

Οι επιστήμονες δεδομένων μπορούν να χρησιμοποιήσουν την Python για να εκτελέσουν την ανάλυση παραγόντων και βασικών συστατικών. Το SVD λειτουργεί απευθείας στις αριθμητικές τιμές των δεδομένων, αλλά μπορείτε επίσης να εκφράσετε δεδομένα ως σχέση μεταβλητών. Κάθε χαρακτηριστικό έχει μια συγκεκριμένη παραλλαγή. Μπορείτε να υπολογίσετε τη μεταβλητότητα ως μέτρο απόκλισης γύρω από τον μέσο όρο. Όσο μεγαλύτερη είναι η διακύμανση, τόσο περισσότερες πληροφορίες περιέχονται μέσα στη μεταβλητή.

Επιπλέον, αν τοποθετήσετε τη μεταβλητή σε ένα σετ, μπορείτε να συγκρίνετε τη διακύμανση δύο μεταβλητών για να προσδιορίσετε αν συσχετίζονται, το οποίο είναι ένα μέτρο για το πόσο ισχυρά έχουν παρόμοιες τιμές.

Έλεγχος όλων των πιθανών συσχετισμών μιας μεταβλητής με τις άλλες στο σύνολο, μπορείτε να ανακαλύψετε ότι μπορεί να έχετε δύο τύπους διακύμανσης:

Μοναδική διακύμανση: Ορισμένες διαφορές είναι μοναδικές για την εξεταζόμενη μεταβλητή. Δεν μπορεί να συσχετιστεί με το τι συμβαίνει σε οποιαδήποτε άλλη μεταβλητή.
Κοινόχρηστη διακύμανση: Μερικές διακυμάνσεις μοιράζονται με μία ή περισσότερες άλλες μεταβλητές, δημιουργώντας πλεονασμό στα δεδομένα. Ο πλεονασμός συνεπάγεται ότι μπορείτε να βρείτε τις ίδιες πληροφορίες, με ελαφρώς διαφορετικές τιμές, σε διάφορα χαρακτηριστικά και σε πολλές παρατηρήσεις.

Φυσικά, το επόμενο βήμα είναι να καθορίσουμε τον λόγο της κοινής διακύμανσης. Προσπαθώντας να απαντήσουμε σε μια τέτοια ερώτηση, καθώς και να καθορίσουμε πώς μπορούμε να αντιμετωπίσουμε τις μοναδικές και κοινές αποκλίσεις, οδήγησε στη δημιουργία ανάλυσης παράγοντα και κύριου στοιχείου.

Μελετώντας το ψυχομετρικό μοντέλο

Λίγο πριν εξεταστούν πολλοί αλγόριθμοι μηχανικής μάθησης, η ψυχολογία , η πειθαρχία στην ψυχολογία που ασχολείται με την ψυχολογική μέτρηση, προσπάθησε να βρει μια στατιστική λύση για την αποτελεσματική μέτρηση των διαστάσεων σε προσωπικότητα. Η ανθρώπινη προσωπικότητα, όπως και με άλλες πτυχές των ανθρώπων, δεν είναι άμεσα μετρήσιμη. Για παράδειγμα, δεν είναι δυνατόν να μετρήσουμε με ακρίβεια πόσο ένα άτομο είναι εσωστρεφές ή ευφυές. Τα ερωτηματολόγια και οι ψυχολογικές εξετάσεις υποδηλώνουν μόνο αυτές τις αξίες.

Οι ψυχολόγοι γνώριζαν το SVD και προσπάθησαν να το εφαρμόσουν στο πρόβλημα. Η κοινή διακύμανση προσέλκυσε την προσοχή τους: Εάν μερικές μεταβλητές είναι σχεδόν ίδιες, θα πρέπει να έχουν την ίδια ρίζα, νόμιζαν. Οι ψυχολόγοι δημιούργησαν

ανάλυση παράγοντα για να εκτελέσουν αυτό το έργο! Αντί να εφαρμόζουν SVD απευθείας στα δεδομένα, το εφάρμοσαν σε ένα νεοδημιουργημένο matrix που παρακολουθούσε την κοινή διακύμανση, ελπίζοντας να συμπυκνώσει όλες τις πληροφορίες και να ανακτήσει νέες χρήσιμες λειτουργίες που ονομάζονται fa c tors . Ψάχνετε για κρυμμένους παράγοντες

Ένας καλός τρόπος να δείξετε πώς να χρησιμοποιήσετε την ανάλυση παράγοντα είναι να ξεκινήσετε με το σύνολο δεδομένων Iris.

από το sklearn. σύνολο δεδομένων import_iris από το sklearn. Εισαγωγή αποσύνθεσης FactorAnysis iris = load_iris () X, y = ίριδα. δεδομένα, ίριδα. συντελεστής στόχος = ανάλυση παράγοντα (n_components = 4, random_state = 101). fit (X)

Μετά την φόρτωση των δεδομένων και την αποθήκευση όλων των χαρακτηριστικών πρόβλεψης, η κλάση FactorAnalysis αρχικοποιείται με ένα αίτημα αναζήτησης τεσσάρων παραγόντων. Στη συνέχεια τοποθετούνται τα δεδομένα. Μπορείτε να εξερευνήσετε τα αποτελέσματα παρατηρώντας το στοιχείο components_, το οποίο επιστρέφει έναν πίνακα που περιέχει μέτρα της σχέσης μεταξύ των νεοσύστατων παραγόντων, τοποθετημένων σε σειρές, και των αρχικών χαρακτηριστικών, τοποθετημένων σε στήλες.

Στη διασταύρωση κάθε παράγοντα και χαρακτηριστικού, ένας θετικός αριθμός δείχνει ότι υπάρχει μια θετική αναλογία μεταξύ των δύο. ένας αρνητικός αριθμός, αντιθέτως, επισημαίνει ότι αποκλίνουν και το ένα είναι το αντίθετο προς το άλλο.

Θα πρέπει να ελέγξετε διαφορετικές τιμές των n_components επειδή δεν είναι δυνατό να γνωρίζετε πόσα στοιχεία υπάρχουν στα δεδομένα. Εάν ο αλγόριθμος είναι απαραίτητος για περισσότερους από τους υπάρχοντες παράγοντες, θα δημιουργήσει συντελεστές με χαμηλές τιμές στον πίνακα στοιχείων.

εισαγάγετε pandas ως pd print pd. (Cm) το μήκος του πέτου (cm) το πλάτος των πετάλων (cm) 0 0,707227 -0. 153147 1. 653151 0. 701569 1 0. 114676 0. 159763 -0. 045604 -0. 014052 2 0. 000000 -0. 000000 -0. 000000 -0. 000000 3 -0. 000000 0. 000000 0. 000000 -0. 000000

Κατά τη δοκιμή στο σύνολο δεδομένων Iris, για παράδειγμα, οι προκύπτοντες παράγοντες πρέπει να είναι το πολύ 2, όχι 4, επειδή μόνο δύο παράγοντες έχουν σημαντικές συνδέσεις με τα αρχικά χαρακτηριστικά. Μπορείτε να χρησιμοποιήσετε αυτούς τους δύο παράγοντες ως νέες μεταβλητές στο έργο σας, επειδή αντικατοπτρίζουν ένα αόρατο αλλά σημαντικό χαρακτηριστικό που μνημονεύουν τα προηγουμένως διαθέσιμα δεδομένα.

Χρήση στοιχείων, όχι συντελεστές

Αν ένα SVD μπορεί να εφαρμοστεί με επιτυχία στην κοινή διακύμανση, ίσως να αναρωτιέστε γιατί δεν μπορείτε να το εφαρμόσετε σε όλες τις διακυμάνσεις. Χρησιμοποιώντας ένα ελαφρώς τροποποιημένο πίνακα εκκίνησης, όλες οι σχέσεις στα δεδομένα θα μπορούσαν να μειωθούν και να συμπιεστούν με παρόμοιο τρόπο με τον τρόπο που το κάνει το SVD.

Τα αποτελέσματα αυτής της διαδικασίας, τα οποία είναι αρκετά παρόμοια με το SVD, καλούνται

ανάλυση βασικών συστατικών (PCA). Οι νεοδημιουργηθείσες λειτουργίες ονομάζονται στοιχεία . Σε αντίθεση με τους παράγοντες, τα συστατικά δεν περιγράφονται ως η κύρια αιτία της δομής των δεδομένων, αλλά είναι ακριβώς αναδιαρθρωμένα δεδομένα, έτσι ώστε να τα βλέπετε ως μια μεγάλη έξυπνη αθροιστική ανάλυση των επιλεγμένων μεταβλητών. Για εφαρμογές επιστήμης δεδομένων, το PCA και το SVD είναι αρκετά παρόμοια. Ωστόσο, η PCA δεν επηρεάζεται από την κλίμακα των αρχικών χαρακτηριστικών (επειδή εργάζεται σε μέτρα συσχέτισης που δεσμεύονται μεταξύ των τιμών -1 και +1) και η PCA επικεντρώνεται στην ανοικοδόμηση της σχέσης μεταξύ των μεταβλητών, προσφέροντας έτσι διαφορετικά αποτελέσματα από το SVD.

Επίτευξη της μείωσης των διαστάσεων

Η διαδικασία επίτευξης μιας PCA είναι αρκετά παρόμοια με την ανάλυση παράγοντα.Η διαφορά είναι ότι δεν καθορίζετε τον αριθμό των στοιχείων που θα εξαχθούν. Αποφασίζετε αργότερα πόσες συνιστώσες πρέπει να διατηρήσετε αφού ελέγξετε το attribute_variance_ratio_, το οποίο παρέχει ποσοτικοποίηση της πληροφοριακής τιμής κάθε εξερχόμενου στοιχείου. Το παρακάτω παράδειγμα δείχνει πώς να εκτελέσετε αυτήν την εργασία:

από το sklearn. εισαγωγή αποσύνθεσης εισαγωγής PCA pandas ως pd pca = PCA (). fit (X) print 'Επεξήγηση διακύμανσης ανά στοιχείο:% s'% pca. explained_variance_ratio_ εκτύπωση pd. DataFrame (pca. Components_, columns = iris. Όνομα_ιδιοτήτων) Επεξήγηση διακύμανσης ανά συνιστώσα: [0. (Εκατοστά) πλάτος σέπαλ (cm) μήκος πετάλου (cm) πλάτος πετάλου (cm) 0 0,361590 -0. 082269 0. 856572 0. 358844 1 -0. 656540 -0. 729712 0. 175767 0. 074706 2 0. 580997 -0. 596418 -0. 072524 -0. 549061 3 0. 317255 -0. 324094 -0. 479719 0. 751121

Σε αυτή την αποσύνθεση του συνόλου δεδομένων Iris, η συστοιχία φορέων που παρέχεται από explained_variance_ratio_ δείχνει ότι οι περισσότερες πληροφορίες συγκεντρώνονται στο πρώτο συστατικό (92,5%). Επομένως, είναι δυνατόν να μειωθεί ολόκληρο το σύνολο δεδομένων σε δύο μόνο στοιχεία, παρέχοντας μείωση θορύβου και περιττές πληροφορίες από το αρχικό σύνολο δεδομένων.