Πίνακας περιεχομένων:
Βίντεο: Understanding Short Term and Long Term Fuel Trim (a SD Premium video) 2024
Η προσαρμογή καμπύλης είναι μια διαδικασία που χρησιμοποιείται στην πρόβλεψη της ανάλυσης, μια καμπύλη που απεικονίζει τη μαθηματική συνάρτηση που ταιριάζει καλύτερα με τα πραγματικά (αρχικά) σημεία δεδομένων σε μια σειρά δεδομένων.
Η καμπύλη μπορεί είτε να περάσει από κάθε σημείο δεδομένων είτε να παραμείνει στο μεγαλύτερο μέρος των δεδομένων, αγνοώντας ορισμένα σημεία δεδομένων με την ελπίδα να σχεδιάσουν τάσεις από τα δεδομένα. Σε κάθε περίπτωση, μια ενιαία μαθηματική συνάρτηση αντιστοιχεί σε ολόκληρο το σύνολο των δεδομένων, με στόχο την τοποθέτηση όλων των σημείων δεδομένων σε μια καμπύλη που περιγράφει τις τάσεις και την πρόβλεψη των βοηθημάτων.
Η προσαρμογή της καμπύλης μπορεί να επιτευχθεί με έναν από τους τρεις τρόπους:
-
Βρίσκοντας μια ακριβή εφαρμογή για κάθε σημείο δεδομένων (μια διαδικασία που ονομάζεται παρεμβολή )
-
το μεγαλύτερο μέρος των δεδομένων αγνοώντας μερικά σημεία δεδομένων με την ελπίδα να εξάγουμε τα δεδομένα από τα δεδομένα
-
Χρησιμοποιώντας εξομάλυνση δεδομένων για να βρούμε μια συνάρτηση που να αντιπροσωπεύει το ομαλοποιημένο γράφημα
Η προσαρμογή καμπύλης μπορεί να χρησιμοποιηθεί για να συμπληρωθούν πιθανά σημεία δεδομένων για να αντικαταστήσουν τις τιμές που λείπουν ή για να βοηθήσουν τους αναλυτές να απεικονίσουν τα δεδομένα.
Όταν εργάζεστε για τη δημιουργία ενός προγνωστικού μοντέλου ανάλυσης, αποφύγετε την προσαρμογή του μοντέλου σας ώστε να ταιριάζει απόλυτα με το δείγμα δεδομένων σας. Ένα τέτοιο μοντέλο θα αποτύχει - δυστυχώς - να προβλέψει παρόμοια αλλά ποικίλα σύνολα δεδομένων εκτός του δείγματος δεδομένων. Η τοποθέτηση ενός μοντέλου πολύ προσεκτικά σε ένα συγκεκριμένο δείγμα δεδομένων είναι ένα κλασικό λάθος που ονομάζεται υπερφόρτωση .
Τα δεινά της υπερφόρτωσης
Στην ουσία, η υπερφόρτωση ενός μοντέλου είναι αυτό που συμβαίνει όταν υπερτραπείτε το μοντέλο για να αντιπροσωπεύετε μόνο τα δείγματα δεδομένων σας - κάτι που δεν είναι καλή παρουσίαση των δεδομένων στο σύνολό τους. Χωρίς μια πιο ρεαλιστική δέσμη δεδομένων για να συνεχιστεί, το μοντέλο μπορεί να μολυνθεί με σφάλματα και κινδύνους όταν τεθεί σε λειτουργία - και οι συνέπειες για την επιχείρησή σας μπορεί να είναι σοβαρές.
Η υπερφόρτωση ενός μοντέλου είναι μια κοινή παγίδα επειδή οι άνθρωποι θέλουν να δημιουργήσουν μοντέλα που λειτουργούν - και έτσι μπαίνουν στον πειρασμό να διατηρήσουν τις μεταβλητές και τις παραμέτρους μικροαλλαγές μέχρι το μοντέλο να εκτελεί τέλεια - σε πολύ λίγα δεδομένα. Το λάθος είναι ανθρώπινο. Ευτυχώς, είναι επίσης ανθρώπινο να δημιουργούμε ρεαλιστικές λύσεις.
Για να αποφύγετε την υπερφόρτωση του μοντέλου σας στο δείγμα δεδομένων σας, βεβαιωθείτε ότι διαθέτετε ένα σύνολο δεδομένων δοκιμών που είναι ξεχωριστά από τα δείγματα δεδομένων σας. Στη συνέχεια, μπορείτε να μετρήσετε την απόδοση του μοντέλου σας ανεξάρτητα πριν κάνετε την λειτουργία του μοντέλου.
Έτσι, ένα γενικό μέτρο προστασίας από την υπερφόρτωση είναι να διαιρέσετε τα δεδομένα σας σε δύο μέρη: τα δεδομένα εκπαίδευσης και τα δεδομένα δοκιμών. Η απόδοση του μοντέλου σε σχέση με τα δεδομένα δοκιμής θα σας πει πολλά για το αν το μοντέλο είναι έτοιμο για τον πραγματικό κόσμο.
Μια άλλη βέλτιστη πρακτική είναι να βεβαιωθείτε ότι τα δεδομένα σας αντιπροσωπεύουν τον μεγαλύτερο πληθυσμό του τομέα στον οποίο διαμορφώνετε. Όλα τα μοντέλα με υπερβολική κατάρτιση γνωρίζουν είναι τα ειδικά χαρακτηριστικά του δείγματος δεδομένων που έχει εκπαιδευτεί. Εάν εκπαιδεύετε το μοντέλο μόνο στις πωλούμενες (για παράδειγμα) πωλήσεις χιονιού το χειμώνα, μην εκπλαγείτε αν αποτύχει άσχημα όταν ξαναρχίσει σε δεδομένα από οποιαδήποτε άλλη εποχή.
Πώς να αποφύγετε την υπερφόρτωση
Αξίζει να επαναλάβετε: Η υπερβολική ρύθμιση του μοντέλου είναι ικανή να οδηγήσει σε υπερφόρτωση. Ένα τέτοιο τσίμπημα συμπεριλαμβάνει πάρα πολλές μεταβλητές στην ανάλυση. Κρατήστε αυτές τις μεταβλητές στο ελάχιστο. Περιλάβετε μόνο τις μεταβλητές που θεωρείτε απολύτως απαραίτητες - εκείνες που πιστεύετε ότι θα κάνουν σημαντική διαφορά στο αποτέλεσμα.
Αυτή η διορατικότητα προέρχεται μόνο από την οικεία γνώση του τομέα της επιχείρησης στην οποία βρίσκεστε. Αυτό είναι όπου η εμπειρογνωμοσύνη των εμπειρογνωμόνων τομέα μπορεί να σας βοηθήσει να μην σας πέσει στην παγίδα της υπερκατασκευής.
Ακολουθεί μια λίστα με τις βέλτιστες πρακτικές που θα σας βοηθήσουν να αποφύγετε την υπερφόρτωση του μοντέλου σας:
-
Επιλέξτε ένα σύνολο δεδομένων για να εργαστείτε με αυτό που είναι αντιπροσωπευτικό του πληθυσμού στο σύνολό του.
-
Διαχωρίστε το σύνολο δεδομένων σας σε δύο μέρη: δεδομένα εκπαίδευσης και δεδομένα δοκιμών.
-
Διατηρήστε τις μεταβλητές που αναλύονται σε ένα υγιές ελάχιστο για το έργο.
-
Συλλέξτε τη βοήθεια εμπειρογνωμόνων γνώσης τομέα.
Στην χρηματιστηριακή αγορά, για παράδειγμα, μια κλασσική αναλυτική τεχνική είναι back-testing - τρέχοντας ένα πρότυπο εναντίον ιστορικών δεδομένων για να αναζητήσουμε την καλύτερη εμπορική στρατηγική.
Ας υποθέσουμε ότι μετά την εφαρμογή του νέου μοντέλου σε σχέση με δεδομένα που παράγονται από μια πρόσφατη αγορά ταυρομαχιών και την τροποποίηση του αριθμού των μεταβλητών που χρησιμοποιούνται στην ανάλυση του, ο αναλυτής δημιουργεί αυτό που μοιάζει με μια βέλτιστη στρατηγική συναλλαγών - αυτή που θα απέδιδε τις υψηλότερες αποδόσεις < εάν θα μπορούσε να επιστρέψει και να εμπορεύεται μόνο κατά τη διάρκεια του έτους που παρήγαγε τα δεδομένα δοκιμών. Δυστυχώς, δεν μπορεί. Αν προσπαθεί να εφαρμόσει αυτό το μοντέλο σε μια τρέχουσα αγορά φέρουν, κοιτάξτε παρακάτω: Θα υποστεί ζημιές εφαρμόζοντας ένα μοντέλο που είναι υπερβολικά βελτιστοποιημένο για ένα στενό χρονικό διάστημα και ένα σύνολο συνθηκών που δεν ταιριάζουν με τις τρέχουσες πραγματικότητες. (Το ίδιο ισχύει και για τα υποθετικά κέρδη.)
Το μοντέλο δούλεψε μόνο για εκείνη την εξαφανισμένη αγορά ταύρων επειδή ήταν υπερβολικά προωθημένη, φέρνοντας τα περιθώρια του πλαισίου που παρήγαγε τα δειγματοληπτικά δεδομένα - πλήρης με τις ιδιαιτερότητές του, τα υπερβολικά χαμηλά και τα μειονεκτήματά του. Όλες οι περιστάσεις που περιβάλλουν το συγκεκριμένο σύνολο δεδομένων πιθανότατα δεν θα επαναληφθούν στο μέλλον ή σε μια πραγματική αναπαράσταση ολόκληρου του πληθυσμού - αλλά όλοι εμφανίστηκαν στο μοντέλο με υπερβολικό ρυθμό.
Εάν η απόδοση ενός μοντέλου είναι πολύ ακριβής, θεωρήστε ότι μια υπόδειξη για να πάρετε μια πιο προσεκτική εμφάνιση. Συγκεντρώστε τη βοήθεια εμπειρογνωμόνων γνώσης τομέα για να δείτε αν τα αποτελέσματά σας είναι πραγματικά πολύ καλά για να είναι αληθινά και τρέξτε αυτό το μοντέλο σε περισσότερα δεδομένα δοκιμών για περαιτέρω συγκρίσεις.