Πίνακας περιεχομένων:
- Εργασία: Επιλογή τεχνικών μοντελοποίησης
- Εργασία: Σχεδιασμός δοκιμών
- Εργασία: Μοντέλο (-τα) οικοδόμησης
- Εργασία: Αξιολόγηση μοντέλων
Βίντεο: 3 Βασικά Θεμέλια Για Να Βελτιωθείς Στο Φλερτ! (Flirting Progress Basics) 2024
Η μοντελοποίηση είναι το τμήμα της διαδικασίας διεπαγγελματικής τυποποιημένης διεργασίας για εξόρυξη δεδομένων (CRISP-DM) όπως οι καλύτεροι. Τα δεδομένα σας είναι ήδη σε καλή κατάσταση και τώρα μπορείτε να αναζητήσετε χρήσιμα μοτίβα στα δεδομένα σας.
Η φάση μοντελοποίησης περιλαμβάνει τέσσερις εργασίες. Αυτά είναι
-
Επιλογή τεχνικών μοντελοποίησης
-
Σχεδιασμός δοκιμών
-
Μοντέλα οικοδόμησης
-
Αξιολόγηση μοντέλων
Εργασία: Επιλογή τεχνικών μοντελοποίησης
Ο θαυμάσιος κόσμος της εξόρυξης δεδομένων προσφέρει μαθήματα τεχνικών μοντελοποίησης, αλλά όχι όλα αυτά θα ταιριάζουν στις ανάγκες σας. Περιορίστε τον κατάλογο με βάση τα είδη των μεταβλητών που εμπλέκονται, την επιλογή των τεχνικών που είναι διαθέσιμα στα εργαλεία σας και οποιεσδήποτε επιχειρηματικές εκτιμήσεις που είναι σημαντικές για εσάς.
Για παράδειγμα, πολλές οργανώσεις προτιμούν μεθόδους με έξοδο που είναι εύκολο να ερμηνευτούν, έτσι ώστε τα δέντρα αποφάσεων ή η λογιστική παλινδρόμηση να είναι αποδεκτά, αλλά τα νευρωνικά δίκτυα πιθανόν να μην γίνονται αποδεκτά.
Τα παραδοτέα για αυτήν την εργασία περιλαμβάνουν δύο αναφορές:
-
Τεχνική μοντελοποίησης: Καθορίστε τις τεχνικές που θα χρησιμοποιήσετε.
-
Υποθέσεις μοντέλου: Πολλές τεχνικές μοντελοποίησης βασίζονται σε ορισμένες υποθέσεις. Για παράδειγμα, ένας τύπος μοντέλου μπορεί να προορίζεται για χρήση με δεδομένα που έχουν συγκεκριμένο τύπο διανομής. Καταγράψτε αυτές τις υποθέσεις στην παρούσα έκθεση.
Οι στατιστικοί είναι καλά ενημερωμένοι, αυστηροί και περίεργοι για τις υποθέσεις. Αυτό δεν ισχύει αναγκαστικά για τους ανθρακωρύχους δεδομένων, και δεν είναι απαίτηση να γίνε ορυχείο δεδομένων. Αν έχετε βαθιές στατιστικές γνώσεις και καταλαβαίνετε τις υποθέσεις των μοντέλων που επιλέγετε, μπορείτε να είστε αυστηροί και ανήσυχοι για τις υποθέσεις.
Όμως, πολλοί ανθρακωρύχοι δεδομένων, ειδικά οι ανθρακωρύχοι αρχαρίων, δεν κάνουν τίποτα για τις υποθέσεις. Η εναλλακτική λύση είναι η δοκιμή - παρτίδες και πολλές δοκιμές - των μοντέλων σας.
Εργασία: Σχεδιασμός δοκιμών
Η δοκιμή σε αυτή την εργασία είναι η δοκιμή που θα χρησιμοποιήσετε για να προσδιορίσετε πόσο καλά λειτουργεί το μοντέλο σας. Μπορεί να είναι τόσο απλό όσο η διάσπαση των δεδομένων σας σε μια ομάδα περιπτώσεων για εκπαίδευση σε μοντέλα και μια άλλη ομάδα για δοκιμές μοντέλων.
Τα δεδομένα εκπαίδευσης χρησιμοποιούνται για την προσαρμογή των μαθηματικών εντύπων στο μοντέλο δεδομένων και τα δεδομένα δοκιμών χρησιμοποιούνται κατά τη διάρκεια της διαδικασίας κατάρτισης μοντέλου για να αποφευχθεί η υπερφόρτωση : καθιστώντας ένα μοντέλο τέλειο για ένα σύνολο δεδομένων, αλλά όχι άλλο. Μπορείτε επίσης να χρησιμοποιήσετε δεδομένα , δεδομένα , τα οποία δεν χρησιμοποιούνται κατά τη διάρκεια της διαδικασίας κατάρτισης μοντέλου, για μια πρόσθετη δοκιμή.
Το παραδοτέο για αυτή την εργασία είναι η δοκιμή σας. Δεν χρειάζεται να είναι περίπλοκο, αλλά θα πρέπει τουλάχιστον να φροντίζετε ότι τα δεδομένα εκπαίδευσης και δοκιμών σας είναι παρόμοια και ότι αποφεύγετε να εισάγετε τυχόν προκατάληψη στα δεδομένα.
Εργασία: Μοντέλο (-τα) οικοδόμησης
Η μοντελοποίηση είναι αυτό που πολλοί άνθρωποι φαντάζουν ότι είναι όλη η δουλειά του ανθρακωρύχου δεδομένων, αλλά είναι μόνο ένα έργο δεκάδων! Παρ 'όλα αυτά, η μοντελοποίηση για την αντιμετώπιση συγκεκριμένων επιχειρηματικών στόχων είναι η καρδιά του επαγγέλματος εξόρυξης δεδομένων.
Τα παραδοτέα για αυτή την εργασία περιλαμβάνουν τρία στοιχεία:
-
Ρυθμίσεις παραμέτρων: Κατά την κατασκευή μοντέλων, τα περισσότερα εργαλεία σας δίνουν τη δυνατότητα ρύθμισης ποικίλων ρυθμίσεων και αυτές οι ρυθμίσεις επηρεάζουν τη δομή του τελικού μοντέλου. Εγγράψτε αυτές τις ρυθμίσεις σε μια αναφορά.
-
Περιγραφές μοντέλου: Περιγράψτε τα μοντέλα σας. Δηλώστε τον τύπο του μοντέλου (όπως γραμμική παλινδρόμηση ή νευρωνικό δίκτυο) και τις μεταβλητές που χρησιμοποιούνται. Εξηγήστε πώς ερμηνεύεται το μοντέλο. Καταγράψτε τυχόν δυσκολίες που συναντώνται στη διαδικασία μοντελοποίησης.
-
Μοντέλα: Αυτό το παραδοτέο είναι τα ίδια τα μοντέλα. Μερικοί τύποι μοντέλων μπορούν εύκολα να οριστούν με μια απλή εξίσωση. άλλοι είναι υπερβολικά περίπλοκοι και πρέπει να μεταδίδονται με πιο εξελιγμένη μορφή.
Εργασία: Αξιολόγηση μοντέλων
Τώρα θα εξετάσετε τα μοντέλα που έχετε δημιουργήσει, τόσο από τεχνική άποψη όσο και από επιχειρηματική άποψη (συχνά με εισήγηση εμπειρογνωμόνων επιχειρήσεων στην ομάδα του έργου σας).
Τα παραδοτέα για αυτήν την εργασία περιλαμβάνουν δύο αναφορές:
-
Αξιολόγηση μοντέλου: Συγκεντρώνει τις πληροφορίες που αναπτύχθηκαν στην ανασκόπηση του μοντέλου σας. Αν έχετε δημιουργήσει διάφορα μοντέλα, μπορείτε να τα ταξινομήσετε βάσει της εκτίμησης της αξίας τους για μια συγκεκριμένη εφαρμογή.
-
Αναθεωρημένες ρυθμίσεις παραμέτρων: Μπορείτε να επιλέξετε την τελειοποίηση των ρυθμίσεων που χρησιμοποιήθηκαν για την κατασκευή του μοντέλου και τη διεξαγωγή ενός ακόμη γύρου μοντελοποίησης και να προσπαθήσετε να βελτιώσετε τα αποτελέσματά σας.
Η εξόρυξη δεδομένων, όπως ένα κρεμμύδι, ένα torp ή ένα ιζηματογενές βράχο, έχει πολλά στρώματα. Μόλις ξεκινήσετε την εξόρυξη δεδομένων, μπορείτε να ξεκινήσετε αφήνοντας τις ρυθμίσεις παραμέτρων στις προεπιλεγμένες τιμές τους (στην πραγματικότητα, ίσως να μην παρατηρήσετε επιλογές, εκτός αν προσπαθείτε να τις αναζητήσετε).
Καθώς αισθάνεστε άνετα στη νέα καριέρα εξόρυξης δεδομένων, θα έχετε νόημα να μάθετε σχετικά με τις παραμέτρους του μοντέλου και να γνωρίζετε πώς μπορείτε να τις χρησιμοποιήσετε. Οι επιλογές σας θα διαφέρουν σημαντικά ανάλογα με τον τύπο του μοντέλου και το συγκεκριμένο εργαλείο που χρησιμοποιείτε.