Πίνακας περιεχομένων:
- Εργασία: Επιλογή δεδομένων
- Εργασία: Δεδομένα καθαρισμού
- Εργασία: Κατασκευή δεδομένων
- Εργασία: Ενσωμάτωση δεδομένων
- Εργασία: Διαμόρφωση δεδομένων
Βίντεο: 3 Βασικά Θεμέλια Για Να Βελτιωθείς Στο Φλερτ! (Flirting Progress Basics) 2024
Οι ανθρακωρύχοι δεδομένων ξοδεύουν τον μεγαλύτερο μέρος του χρόνου τους στην τρίτη φάση του μοντέλου διεργασιών Σταθμός Διασύνδεσης Διεργασιών για Εξόρυξη Δεδομένων (CRISP-DM): προετοιμασία δεδομένων. Τα περισσότερα δεδομένα που χρησιμοποιήθηκαν για την εξόρυξη δεδομένων συλλέχθηκαν αρχικά και διατηρήθηκαν για άλλους σκοπούς και χρειάζονται κάποια βελτίωση, προτού είναι έτοιμα να χρησιμοποιηθούν για μοντελοποίηση.
Η φάση προετοιμασίας δεδομένων περιλαμβάνει πέντε εργασίες . Αυτά είναι
-
Επιλογή δεδομένων
-
Δεδομένα καθαρισμού
-
Κατασκευή δεδομένων
-
Ενσωμάτωση δεδομένων
-
Διαμόρφωση δεδομένων
Ο οδηγός βήμα προς βήμα CRISP-DM δεν αναφέρει ρητά τα σύνολα δεδομένων ως παραδοτέα τα καθήκοντα προετοιμασίας δεδομένων, αλλά αυτά τα σύνολα δεδομένων είχαν πολύ καλύτερα αποτελέσματα και αρχειοθετήθηκαν και τεκμηριώθηκαν σωστά. Τα σύνολα δεδομένων δεν θα αντιστοιχούν μεταξύ τους με τις εργασίες, αλλά θα πρέπει να περιλαμβάνονται πληροφορίες για τα δεδομένα που χρησιμοποιούνται σε κάθε αναφορά παράδοσης.
Εργασία: Επιλογή δεδομένων
Τώρα θα αποφασίσετε ποιο μέρος των δεδομένων που έχετε θα χρησιμοποιηθεί στην εξόρυξη δεδομένων.
Το παραδοτέο για αυτό το καθήκον είναι η λογική της συμπερίληψης και του αποκλεισμού. Σε αυτό, θα εξηγήσετε ποια δεδομένα θα χρησιμοποιηθούν και δεν θα χρησιμοποιηθούν για περαιτέρω εργασία εξόρυξης δεδομένων.
Θα εξηγήσετε τους λόγους για τους οποίους συμπεριλαμβάνετε ή εξαιρείτε κάθε μέρος των δεδομένων που έχετε, με βάση τη συνάφεια με τους στόχους σας, την ποιότητα των δεδομένων και τεχνικά ζητήματα - όπως τα όρια στον αριθμό των πεδίων ή των γραμμών που μπορούν να χρησιμοποιήσουν τα εργαλεία σας χειριστείτε ή την καταλληλότητα των μορφών δεδομένων για τις ανάγκες σας.
Εργασία: Δεδομένα καθαρισμού
Τα δεδομένα που έχετε επιλέξει να χρησιμοποιήσετε είναι απίθανο να είναι απόλυτα καθαρά (χωρίς σφάλματα). Θα πραγματοποιήσετε αλλαγές, ίσως εντοπίζοντας πηγές για να κάνετε συγκεκριμένες διορθώσεις δεδομένων, εξαιρώντας μερικές περιπτώσεις ή μεμονωμένα κελιά (στοιχεία δεδομένων) ή αντικαθιστώντας ορισμένα στοιχεία δεδομένων με προεπιλεγμένες τιμές ή αντικαταστάσεις που επιλέγονται από μια πιο εξελιγμένη τεχνική μοντελοποίησης. Μπορείτε να επιλέξετε να χρησιμοποιήσετε μόνο υποσύνολα των δεδομένων για όλες ή ορισμένες από τις εργασίες εξόρυξης δεδομένων.
Το παραδοτέο για αυτή την εργασία είναι η αναφορά καθαρισμού δεδομένων, η οποία καταγράφει λεπτομερώς κάθε απόφαση και ενέργεια που χρησιμοποιείται για τον καθαρισμό των δεδομένων σας. Αυτή η αναφορά θα πρέπει να καλύπτει και να αναφέρεται σε κάθε πρόβλημα ποιότητας δεδομένων που εντοπίστηκε στην εργασία επαλήθευσης της ποιότητας δεδομένων στη φάση κατανόησης της διαδικασίας. Αναφέρετε επίσης την πιθανή επίπτωση στα αποτελέσματα των επιλογών που κάνατε κατά τον καθαρισμό των δεδομένων.
Εργασία: Κατασκευή δεδομένων
Μπορεί να χρειαστεί να αντλήσετε μερικά νέα πεδία (για παράδειγμα, χρησιμοποιήστε την ημερομηνία παράδοσης και την ημερομηνία που ο πελάτης έδωσε εντολή για να υπολογίσει πόσο ο πελάτης περίμενε να λάβει μια παραγγελία), ή να δημιουργήσετε με άλλο τρόπο μια νέα μορφή δεδομένων.
Τα παραδοτέα για αυτή την εργασία περιλαμβάνουν δύο αναφορές:
-
Παράγωγα χαρακτηριστικά: Μια αναφορά που περιγράφει ποια νέα πεδία (στήλες) έχετε κατασκευάσει, πώς το κάνατε και γιατί.
-
Δημιουργούμενες εγγραφές: Μια αναφορά που περιγράφει ποιες νέες περιπτώσεις (σειρές) έχετε δημιουργήσει, πώς το κάνατε και γιατί.
Παρόλο που τα δεδομένα συγχώνευσης και τα καθήκοντα δεδομένων μορφοτύπων παρατίθενται τελευταία σε αυτή τη φάση της διαδικασίας, δεν είναι πάντοτε τα τελευταία και μπορεί να μην εμφανίζονται μόνο μία φορά. Ίσως χρειαστεί να κάνετε κάποια συγχώνευση ή επαναδιαμόρφωση στην αρχή της φάσης προετοιμασίας των δεδομένων.
Εργασία: Ενσωμάτωση δεδομένων
Τα δεδομένα σας μπορεί τώρα να βρίσκονται σε πολλά διαφορετικά σύνολα δεδομένων. Θα χρειαστεί να συγχωνεύσετε κάποια ή όλα αυτά τα διαφορετικά σύνολα δεδομένων για να προετοιμαστείτε για τη φάση μοντελοποίησης.
Το παραδοτέο για αυτή την εργασία είναι τα συγχωνευμένα δεδομένα. (Και δεν θα έβλαπτε να τεκμηριώνε πώς έγινε η συγχώνευση.)
Εργασία: Διαμόρφωση δεδομένων
Τα δεδομένα συχνά έρχονται σε εσένα σε μορφές διαφορετικές από εκείνες που είναι πιο βολικές για μοντελοποίηση. (Οι αλλαγές μορφοποίησης οδηγούνται συνήθως από το σχεδιασμό των εργαλείων σας.) Έτσι, μετατρέψτε αυτές τις μορφές τώρα.
Το παραδοτέο για αυτή την εργασία είναι τα αναδιαμορφωμένα δεδομένα σας. (Και μια μικρή αναφορά που περιγράφει τις αλλαγές που κάνατε θα ήταν ένα έξυπνο πράγμα που πρέπει να συμπεριλάβετε.)
Θα πρέπει να τερματίσετε τη φάση προετοιμασίας δεδομένων της διαδικασίας εξόρυξης δεδομένων με ένα σύνολο δεδομένων έτοιμο για μοντελοποίηση και λεπτομερή αναφορά που περιγράφει το σύνολο δεδομένων.