Πίνακας περιεχομένων:
Βίντεο: Excel greek Tutorial 12.Ανάλυση εναλλακτικών συνόλων δεδομένων 2025
Αφού ορίσατε τους στόχους του μοντέλου, το επόμενο βήμα στα προγνωστικά είναι να προσδιορίσετε και να προετοιμάσετε τα δεδομένα που θα χρησιμοποιήσετε για την κατασκευή του μοντέλου σας. Οι παρακάτω πληροφορίες αφορούν τις πιο σημαντικές δραστηριότητες. Η γενική ακολουθία βημάτων μοιάζει με αυτή:
- Προσδιορίστε τις πηγές δεδομένων σας.
Τα δεδομένα θα μπορούσαν να είναι σε διαφορετικές μορφές ή να διαμένουν σε διάφορες τοποθεσίες.
- Προσδιορίστε τον τρόπο πρόσβασης στα δεδομένα αυτά.
Μερικές φορές, θα χρειαστεί να αποκτήσετε δεδομένα τρίτου μέρους ή δεδομένα που ανήκουν σε διαφορετικό τμήμα στον οργανισμό σας κ.λπ.
- Σκεφτείτε ποιες μεταβλητές πρέπει να συμπεριλάβετε στην ανάλυσή σας.
Μια τυπική προσέγγιση είναι να ξεκινήσετε με ένα ευρύ φάσμα μεταβλητών και να εξαλείψετε εκείνες που δεν προσφέρουν πρόβλεψη για το μοντέλο.
- Προσδιορίστε αν θα χρησιμοποιηθούν παραγόμενες μεταβλητές.
Σε πολλές περιπτώσεις, μια μεταβλητή που προκύπτει (όπως η αναλογία τιμής ανά κερδοφορία που χρησιμοποιείται για την ανάλυση των τιμών των μετοχών) θα είχε μεγαλύτερο άμεσο αντίκτυπο στο μοντέλο απ 'ό, τι η ακατέργαστη μεταβλητή.
- Εξερευνήστε την ποιότητα των δεδομένων σας, προσπαθώντας να κατανοήσετε τόσο την κατάσταση όσο και τους περιορισμούς.
Η ακρίβεια των προβλέψεων του μοντέλου σχετίζεται άμεσα με τις μεταβλητές που επιλέγετε και την ποιότητα των δεδομένων σας. Θα θέλατε να απαντήσετε σε συγκεκριμένες ερωτήσεις που αφορούν συγκεκριμένα δεδομένα σε αυτό το σημείο:
- Τα δεδομένα ολοκληρώνονται;
- Έχει κάποια απόκλιση;
- Τα δεδομένα χρειάζονται καθαρισμό;
- Πρέπει να συμπληρώσετε ελλείπουσες τιμές, να τις κρατήσετε όπως είναι ή να τις εξαλείψετε εντελώς;
Η κατανόηση των δεδομένων και των ιδιοτήτων τους μπορεί να σας βοηθήσει να επιλέξετε τον αλγόριθμο που θα είναι πιο χρήσιμος για την κατασκευή του μοντέλου σας. Για παράδειγμα:
- Αλγόριθμοι παλινδρόμησης μπορούν να χρησιμοποιηθούν για την ανάλυση δεδομένων χρονοσειρών.
- Αλγόριθμοι ταξινόμησης μπορούν να χρησιμοποιηθούν για την ανάλυση διακριτών δεδομένων.
- Αλγόριθμοι σύνδεσης μπορούν να χρησιμοποιηθούν για δεδομένα με συσχετισμένα χαρακτηριστικά.
Οι μεμονωμένοι αλγόριθμοι και οι τεχνικές πρόβλεψης έχουν διαφορετικές αδυναμίες και αντοχές. Το πιο σημαντικό είναι ότι η ακρίβεια του μοντέλου βασίζεται τόσο στην μεγάλη ποσότητα όσο και στην ποιότητα των δεδομένων. Τα δεδομένα σας πρέπει να διαθέτουν επαρκή αριθμό αρχείων για να παρέχουν στατιστικά σημαντικά αποτελέσματα.
Η συλλογή σχετικών δεδομένων (κατά προτίμηση πολλές εγγραφές για μεγάλο χρονικό διάστημα), η προεπεξεργασία και η εξαγωγή των χαρακτηριστικών με τις περισσότερες προγνωστικές τιμές θα είναι εκεί όπου ξοδεύετε το μεγαλύτερο μέρος του χρόνου σας. Αλλά πρέπει ακόμα να επιλέξετε τον αλγόριθμο με σύνεση, έναν αλγόριθμο που θα πρέπει να ταιριάζει στο επιχειρηματικό πρόβλημα.
Η προετοιμασία δεδομένων είναι συγκεκριμένη για το έργο στο οποίο εργάζεστε και για τον αλγόριθμο που επιλέγετε να χρησιμοποιήσετε.Ανάλογα με τις απαιτήσεις του έργου, θα προετοιμάσετε τα δεδομένα σας ανάλογα και θα τα τροφοδοτήσετε με τον αλγόριθμο, καθώς θα φτιάξετε το μοντέλο σας για να ικανοποιήσετε τις επιχειρηματικές ανάγκες.
Το σύνολο δεδομένων που χρησιμοποιείται για την εκπαίδευση και τη δοκιμή του μοντέλου πρέπει να περιέχει σχετικές επιχειρηματικές πληροφορίες για να απαντήσει στο πρόβλημα που προσπαθείτε να λύσετε. Εάν ο στόχος σας είναι (για παράδειγμα) να καθορίσετε ποιος πελάτης είναι πιθανό να χτυπήσει, τότε το σύνολο δεδομένων που επιλέγετε πρέπει να περιέχει πληροφορίες σχετικά με πελάτες που έχουν αναποδογυρίσει στο παρελθόν εκτός από πελάτες που δεν το έχουν.
Ορισμένα μοντέλα που δημιουργήθηκαν για δεδομένα ορυχείων και έχουν νόημα για τις υποκείμενες σχέσεις τους - για παράδειγμα, εκείνα που κατασκευάστηκαν με αλγόριθμους ομαδοποίησης - δεν χρειάζεται να έχουν κάποιο συγκεκριμένο τελικό αποτέλεσμα.
Underfitting
Underfitting είναι όταν το μοντέλο σας δεν μπορεί να ανιχνεύσει τυχόν σχέσεις στα δεδομένα σας. Αυτό είναι συνήθως μια ένδειξη ότι οι ουσιαστικές μεταβλητές - εκείνες με προγνωστική δύναμη - δεν συμπεριλήφθηκαν στην ανάλυσή σας.
Εάν οι μεταβλητές που χρησιμοποιούνται στο μοντέλο σας δεν έχουν υψηλή προγνωστική ισχύ, δοκιμάστε να προσθέσετε νέες μεταβλητές για συγκεκριμένο τομέα και να εκτελέσετε εκ νέου το μοντέλο σας. Ο τελικός στόχος είναι να βελτιωθεί η απόδοση του μοντέλου στα δεδομένα εκπαίδευσης.
Ένα άλλο ζήτημα που πρέπει να προσέξετε είναι η εποχικότητα (όταν έχετε εποχιακό μοτίβο, αν δεν αναλύσετε πολλές εποχές μπορεί να έχετε πρόβλημα). Για παράδειγμα, μια ανάλυση αποθέματος που περιλαμβάνει μόνο δεδομένα από ταύρο (όπου οι συνολικές τιμές των μετοχών ανεβαίνουν) δεν συνεπάγονται κρίσεις ή φούσκες που μπορούν να επιφέρουν σημαντικές διορθώσεις στη συνολική απόδοση των μετοχών. Αν δεν συμπεριληφθούν τα δεδομένα που καλύπτουν τόσο τις ταύρους όσο και τις οι αγορές φέρουν (όταν οι συνολικές τιμές των μετοχών πέφτουν), το μοντέλο διατηρεί την καλύτερη δυνατή επιλογή χαρτοφυλακίου. Υπερθέρμανση
Υπερθέρμανση
είναι όταν το μοντέλο σας περιλαμβάνει δεδομένα που δεν έχουν προβλεπτική ισχύ, αλλά είναι μόνο συγκεκριμένα για το σύνολο δεδομένων που αναλύετε. Τυχαίες παραλλαγές στο σύνολο δεδομένων - μπορούν να βρεθούν στο μοντέλο, έτσι ώστε η λειτουργία του μοντέλου σε διαφορετικό σύνολο δεδομένων να προκαλέσει σημαντική πτώση στην προβλεπτική απόδοση και ακρίβεια του μοντέλου.
