Βίντεο: Essential Scale-Out Computing by James Cuff 2024
Όταν τα δεδομένα σας είναι έτοιμα και πρόκειται να αρχίσετε να δημιουργείτε το μοντέλο πρόβλεψης για ανάλυση, είναι χρήσιμο να περιγράψετε τη μεθοδολογία δοκιμής και να σχεδιάσετε ένα πρόγραμμα δοκιμών. Οι δοκιμές θα πρέπει να καθοδηγούνται από τους επιχειρηματικούς στόχους που έχετε συλλέξει, τεκμηριώσουν και να συλλέξετε όλα τα απαραίτητα δεδομένα για να σας βοηθήσουμε να επιτύχετε.
Ακριβώς από το ρόπαλο, θα πρέπει να σχεδιάσετε μια μέθοδο για να ελέγξετε αν ένας επιχειρηματικός στόχος έχει επιτευχθεί με επιτυχία. Εφόσον οι αναλυτικές μέθοδοι πρόβλεψης μετρούν την πιθανότητα ενός μελλοντικού αποτελέσματος και ο μόνος τρόπος να είστε έτοιμοι να εκτελέσετε μια τέτοια δοκιμή είναι να εκπαιδεύσετε το μοντέλο σας σε προηγούμενα δεδομένα, πρέπει να δείτε τι μπορεί να κάνει όταν αντιμετωπίζει μελλοντικά δεδομένα.
Φυσικά, δεν μπορείτε να διακινδυνεύσετε να χρησιμοποιήσετε ένα μη δοκιμασμένο μοντέλο σε πραγματικά μελλοντικά δεδομένα, επομένως θα χρειαστεί να χρησιμοποιήσετε τα υπάρχοντα δεδομένα για να προσομοιώσετε ρεαλιστικά μελλοντικά δεδομένα. Για να γίνει αυτό, πρέπει να χωρίσετε τα δεδομένα στα οποία εργάζεστε για την κατάρτιση και τη δοκιμή συνόλων δεδομένων.
Βεβαιωθείτε ότι έχετε επιλέξει αυτά τα δύο σύνολα δεδομένων τυχαία και ότι και τα δύο σύνολα δεδομένων περιέχουν και καλύπτουν όλες τις παραμέτρους δεδομένων που μετράτε.
Όταν χωρίζετε τα δεδομένα σας σε σύνολα δεδομένων δοκιμής και κατάρτισης, αποφεύγετε αποτελεσματικά τυχόν προβλήματα υπερφόρτωσης που θα μπορούσαν να προκύψουν από την υπερβολική κατάρτιση του μοντέλου σε ολόκληρο το σύνολο δεδομένων και τη συλλογή όλων των μοτίβων θορύβου ή συγκεκριμένων χαρακτηριστικών που ανήκουν μόνο στο δείγμα δεδομένων και δεν ισχύουν για άλλα σύνολα δεδομένων.
Ο διαχωρισμός των δεδομένων σας σε σύνολα δεδομένων κατάρτισης και δοκιμής, περίπου 70% και 30% αντίστοιχα, εξασφαλίζει ακριβή μέτρηση της απόδοσης του προγνωστικού μοντέλου ανάλυσης που δημιουργείτε. Θέλετε να αξιολογήσετε το μοντέλο σας σε σχέση με τα δεδομένα δοκιμών επειδή είναι ένας απλός τρόπος μέτρησης του εάν οι προβλέψεις του μοντέλου είναι ακριβείς.