Βίντεο: Τα χαρακτηριστικά του επιτυχημένου παίκτη του στοιχήματος 2024
Σε επίπεδο ορείχαλκου, η ταξινόμηση των προβλεπτικών αναλυτικών δεδομένων αποτελείται από δύο στάδια: το στάδιο εκμάθησης και το στάδιο πρόβλεψης. Το στάδιο μάθησης συνεπάγεται την κατάρτιση του μοντέλου ταξινόμησης με τη χρήση ενός καθορισμένου συνόλου παλαιών δεδομένων μέσω του ταξινομητή. Ο στόχος είναι να διδάξετε το μοντέλο σας να εξαγάγει και να ανακαλύψει κρυφές σχέσεις και κανόνες - τους κανόνες ταξινόμησης από ιστορικά (εκπαιδευτικά) δεδομένα. Το μοντέλο το κάνει χρησιμοποιώντας έναν αλγόριθμο ταξινόμησης.
Το στάδιο πρόβλεψης που ακολουθεί το στάδιο εκμάθησης συνίσταται στο να έχουμε το μοντέλο να προβλέψει νέες ετικέτες κλάσης ή αριθμητικές τιμές που ταξινομούν δεδομένα που δεν έχουν δει πριν (δηλ. Δεδομένα δοκιμών).
Για να δείξετε αυτά τα στάδια, ας υποθέσετε ότι είστε ιδιοκτήτης ενός ηλεκτρονικού καταστήματος που πωλεί ρολόγια. Έχετε την ιδιοκτησία του ηλεκτρονικού καταστήματος για αρκετό καιρό και έχετε συγκεντρώσει πολλά δεδομένα συναλλαγών και προσωπικά δεδομένα σχετικά με πελάτες που αγόρασαν ρολόγια από το κατάστημά σας. Ας υποθέσουμε ότι έχετε καταγράψει αυτά τα δεδομένα μέσω του ιστότοπού σας παρέχοντας φόρμες ιστού, εκτός από τα δεδομένα συναλλαγών που έχετε συγκεντρώσει μέσω των λειτουργιών.
Θα μπορούσατε επίσης να αγοράσετε δεδομένα από τρίτους που σας παρέχουν πληροφορίες σχετικά με τους πελάτες σας εκτός του ενδιαφέροντός τους για ρολόγια. Αυτό δεν είναι τόσο σκληρό όσο ακούγεται. υπάρχουν εταιρείες των οποίων το επιχειρηματικό μοντέλο είναι να παρακολουθεί τους πελάτες στο διαδίκτυο και να συλλέγει και να πωλεί πολύτιμες πληροφορίες σχετικά με αυτές.
Οι περισσότερες από αυτές τις εταιρείες τρίτων μερών συλλέγουν δεδομένα από ιστότοπους κοινωνικών μέσων και εφαρμόζουν μεθόδους εξόρυξης δεδομένων για να ανακαλύψουν τη σχέση μεμονωμένων χρηστών με προϊόντα. Σε αυτήν την περίπτωση, ως ιδιοκτήτης ενός καταστήματος ρολογιών, θα ενδιαφέρεστε για τη σχέση μεταξύ των πελατών και το ενδιαφέρον τους για αγορά ρολογιών.
Μπορείτε να εξαγάγετε αυτού του είδους τις πληροφορίες από την ανάλυση, για παράδειγμα, ενός προφίλ κοινωνικού δικτύου ενός πελάτη ή ένα σχόλιο μικροβιολογίου του είδους που βρίσκετε στο Twitter.
Για να μετρήσετε το επίπεδο ενδιαφέροντος ενός ατόμου στα ρολόγια, θα μπορούσατε να εφαρμόσετε κάποιο από τα πολλά εργαλεία ανάλυσης κειμένου που μπορούν να ανακαλύψουν τέτοιους συσχετισμούς στο γραπτό κείμενο ενός ατόμου (κατάσταση κοινωνικού δικτύου, tweets, blog postings κ.λπ.) όπως οι κοινωνικές αλληλεπιδράσεις στο διαδίκτυο, οι μεταφορτώσεις φωτογραφιών και οι αναζητήσεις).
Αφού συγκεντρώσετε όλα τα δεδομένα σχετικά με τις προηγούμενες συναλλαγές και τα τρέχοντα ενδιαφέροντα των πελατών σας - τα δεδομένα εκπαίδευσης που δείχνουν στο μοντέλο σας τι πρέπει να αναζητήσετε - θα πρέπει να τα οργανώσετε σε μια δομή που το καθιστά εύκολη πρόσβαση και χρήση (όπως μια βάση δεδομένων).
Σε αυτό το σημείο, έχετε φτάσει στη δεύτερη φάση της ταξινόμησης των δεδομένων: το στάδιο πρόβλεψης, το οποίο είναι όλα σχετικά με τη δοκιμή του μοντέλου σας και την ακρίβεια των κανόνων ταξινόμησης που έχει δημιουργήσει. Για το σκοπό αυτό, θα χρειαστείτε επιπλέον ιστορικά δεδομένα πελατών, που αναφέρονται ως δεδομένα δοκιμών (τα οποία είναι διαφορετικά από τα δεδομένα εκπαίδευσης).
Τροφοδοτείτε αυτά τα δεδομένα δοκιμών στο μοντέλο σας και μετρήστε την ακρίβεια των προγνώσεων που προκύπτουν. Μετράτε τις ώρες που το μοντέλο προέβλεψε σωστά τη μελλοντική συμπεριφορά των πελατών που εκπροσωπούνται στα δεδομένα δοκιμών σας. Επίσης, μετράτε τις ώρες που το μοντέλο έκανε λάθος προβλέψεις.
Σε αυτό το σημείο, έχετε μόνο δυο πιθανά αποτελέσματα: Είτε είστε ικανοποιημένοι με την ακρίβεια του μοντέλου είτε δεν είστε:
-
Αν είστε ικανοποιημένοι, τότε μπορείτε να αρχίσετε να φτιάχνετε το μοντέλο σας έτοιμο να κάνει προβλέψεις ως μέρος ενός συστήματος παραγωγής.
-
Εάν δεν είστε ευχαριστημένοι με την πρόβλεψη, τότε θα χρειαστεί να επανεκπαιδεύσετε το μοντέλο σας με ένα νέο σύνολο δεδομένων κατάρτισης.
Εάν τα αρχικά σας δεδομένα εκπαίδευσης δεν ήταν αρκετά αντιπροσωπευτικά της ομάδας των πελατών σας - ή περιείχαν θορυβώδη δεδομένα που έριξαν τα αποτελέσματα του μοντέλου εισάγοντας ψευδή μηνύματα - τότε θα πρέπει να κάνουμε περισσότερη δουλειά για να φέρουμε το μοντέλο σας σε λειτουργία. Είτε το αποτέλεσμα είναι χρήσιμο στο δρόμο του.