Βίντεο: Android 101 by Fred Widjaja 2024
Η κύρια ανάλυση συνιστωσών (PCA) είναι μια πολύτιμη τεχνική που χρησιμοποιείται ευρέως στην προγνωστική ανάλυση και την επιστήμη των δεδομένων. Μελετά ένα σύνολο δεδομένων για να μάθει τις πιο σχετικές μεταβλητές που ευθύνονται για την υψηλότερη διακύμανση σε αυτό το σύνολο δεδομένων. Το PCA χρησιμοποιείται κυρίως ως τεχνική μείωσης δεδομένων.
Ενώ δημιουργείτε προγνωστικά μοντέλα, ίσως χρειαστεί να μειώσετε τον αριθμό των χαρακτηριστικών που περιγράφουν το σύνολο δεδομένων σας. Είναι πολύ χρήσιμο να μειωθεί αυτή η υψηλή διαστατικότητα των δεδομένων μέσω τεχνικών προσέγγισης, στις οποίες η PCA υπερέχει. Τα προσεγγιστικά δεδομένα συνοψίζουν όλες τις σημαντικές παραλλαγές των αρχικών δεδομένων.
Η εύρεση των σημαντικότερων προγνωστικών μεταβλητών αποτελεί τον πυρήνα της οικοδόμησης ενός προγνωστικού μοντέλου. Ο τρόπος με τον οποίο πολλοί το έχουν κάνει είναι με τη χρήση μιας προσέγγισης ωμής βίας. Η ιδέα είναι να ξεκινήσετε με όσες σχετικές μεταβλητές μπορείτε, και στη συνέχεια να χρησιμοποιήσετε μια προσέγγιση διοχέτευσης για την εξάλειψη χαρακτηριστικών που δεν έχουν καμία επίδραση ή δεν έχουν προβλεπτική αξία.
Για να βοηθήσουν στη διαδικασία, οι επιστήμονες δεδομένων χρησιμοποιούν πολλά προγνωστικά εργαλεία ανάλυσης που καθιστούν ευκολότερη και ταχύτερη την εκτέλεση πολλαπλών παραλλαγών και αναλύσεων σε ένα σύνολο δεδομένων, προκειμένου να μετρηθεί ο αντίκτυπος κάθε μεταβλητής σε αυτό το σύνολο δεδομένων.
Η μείωση του αριθμού των μεταβλητών που βλέπετε είναι αρκετός λόγος για να χρησιμοποιήσετε τον PCA. Επιπλέον, με τη χρήση του PCA προστατεύεστε αυτόματα από την υπερφόρτωση του μοντέλου.
Βέβαια, θα μπορούσατε να βρείτε συσχέτιση μεταξύ των μετεωρολογικών δεδομένων σε μια δεδομένη χώρα και της απόδοσης της χρηματιστηριακής αγοράς. Ή με το χρώμα των υποδημάτων ενός ατόμου και τη διαδρομή που παίρνει στο γραφείο και την απόδοση του χαρτοφυλακίου τους για εκείνη την ημέρα. Ωστόσο, συμπεριλαμβανομένων αυτών των μεταβλητών σε ένα μοντέλο πρόβλεψης είναι κάτι περισσότερο από υπερβολική, είναι παραπλανητική και οδηγεί σε ψευδείς προβλέψεις.
Ο PCA χρησιμοποιεί μια μαθηματικά έγκυρη προσέγγιση για να καθορίσει το υποσύνολο του συνόλου δεδομένων που περιλαμβάνει τα πιο σημαντικά χαρακτηριστικά. στην κατασκευή του μοντέλου σας σε αυτό το μικρότερο σύνολο δεδομένων, θα έχετε ένα μοντέλο που έχει προγνωστική αξία για το συνολικό, μεγαλύτερο σύνολο δεδομένων με το οποίο εργάζεστε. Εν ολίγοις, ο PCA θα πρέπει να σας βοηθήσει να κατανοήσετε τις μεταβλητές σας προσδιορίζοντας το υποσύνολο των μεταβλητών που είναι υπεύθυνες για τις περισσότερες παραλλαγές με το αρχικό σύνολο δεδομένων. Σας βοηθά να εντοπίζετε πλεονασμό. Σας βοηθά να διαπιστώσετε ότι δύο (ή περισσότερες μεταβλητές) σας λένε το ίδιο πράγμα.
Επιπλέον, η ανάλυση κύριων στοιχείων λαμβάνει το πολυδιάστατο σύνολο δεδομένων σας και παράγει ένα νέο σύνολο δεδομένων των οποίων οι μεταβλητές είναι αντιπροσωπευτικές της γραμμικότητας των μεταβλητών στο αρχικό σύνολο δεδομένων. Επιπλέον, το σύνολο δεδομένων που έχουν παραδοθεί έχει ξεχωριστά μη συσχετισμένες μεταβλητές και η διακύμανσή τους ταξινομείται από τα κύρια συστατικά μέρη τους, όπου το πρώτο είναι το μεγαλύτερο και ούτω καθεξής. Από αυτή την άποψη, το PCA μπορεί επίσης να θεωρηθεί ως μια τεχνική για την κατασκευή χαρακτηριστικών.
Ενώ χρησιμοποιείτε PCA ή άλλες παρόμοιες τεχνικές που συμβάλλουν στη μείωση της διαστάσεων του συνόλου δεδομένων που έχετε να κάνετε, πρέπει πάντα να είστε προσεκτικοί για να μην επηρεάσετε αρνητικά την απόδοση του μοντέλου. Η μείωση του μεγέθους των δεδομένων δεν πρέπει να αποβεί εις βάρος της αρνητικής επίπτωσης στην απόδοση (η ακρίβεια του μοντέλου πρόβλεψης). Πέτατε με ασφάλεια και διαχειριστείτε το σύνολο δεδομένων σας με προσοχή.
Η αυξημένη πολυπλοκότητα ενός μοντέλου δεν μεταφράζεται σε υψηλότερη ποιότητα στο αποτέλεσμα.
Για να διατηρήσετε την απόδοση του μοντέλου, μπορεί να χρειαστεί να αξιολογήσετε προσεκτικά την αποτελεσματικότητα κάθε μεταβλητής, μετρώντας τη χρησιμότητά της στη διαμόρφωση του τελικού μοντέλου.
Γνωρίζοντας ότι ο PCA μπορεί να είναι ιδιαίτερα χρήσιμος όταν οι μεταβλητές συσχετίζονται σε μεγάλο βαθμό μέσα σε ένα δεδομένο σύνολο δεδομένων, τότε η ύπαρξη ενός συνόλου δεδομένων με μη συσχετισμένες προγνωστικές μεταβλητές μπορεί να περιπλέξει μόνο το έργο της μείωσης της διαστάσεων των δεδομένων πολλών μεταβλητών. Πολλές άλλες τεχνικές μπορούν να χρησιμοποιηθούν εδώ εκτός από τον PCA, όπως η επιλογή χαρακτηριστικών για τα εμπρός και η εξάλειψη των καθυστερήσεων.
Η PCA δεν είναι μια μαγική σφαίρα που θα λύσει όλα τα ζητήματα με τα πολυδιάστατα δεδομένα. Η επιτυχία της εξαρτάται σε μεγάλο βαθμό από τα δεδομένα με τα οποία συνεργάζεστε. Η στατιστική διακύμανση μπορεί να μην ευθυγραμμίζεται με τις μεταβλητές με τις πιο προβλέψιμες τιμές, παρόλο που είναι ασφαλές να συνεργαστούμε με τέτοιες προσεγγίσεις.