Πίνακας περιεχομένων:
Βίντεο: ✨Effective Nighttime Routine to Reduce Hyperpigmentation, Acne Scars and Dark Spots ✨ 2024
Σε αυτή τη φάση εξερεύνησης της ανάλυσης πρόβλεψης, θα αποκτήσετε οικεία γνώση των δεδομένων σας - η οποία με τη σειρά σας θα σας βοηθήσει να επιλέξετε τις σχετικές μεταβλητές που θα αναλύσετε. Αυτή η κατανόηση θα σας βοηθήσει επίσης να αξιολογήσετε τα αποτελέσματα του μοντέλου σας. Αλλά πρώτα πρέπει να εντοπίσετε και να καθαρίσετε τα δεδομένα για ανάλυση.
Τρόπος δημιουργίας παράγωγων δεδομένων
Τα παράγωγα χαρακτηριστικά είναι εντελώς νέες εγγραφές που έχουν κατασκευαστεί από ένα ή περισσότερα υπάρχοντα χαρακτηριστικά. Ένα παράδειγμα θα ήταν η δημιουργία αρχείων που να αναγνωρίζουν τα βιβλία που είναι τα bestsellers σε εκθέσεις βιβλίων. Τα ακατέργαστα δεδομένα ενδέχεται να μην καταγράφουν τέτοια αρχεία - αλλά για λόγους μοντελοποίησης, αυτά τα παράγωγα αρχεία μπορεί να είναι σημαντικά. Ο λόγος τιμής ανά κέρδος και κινητός μέσος όρος 200 ημερών είναι δύο παραδείγματα παραγώγων δεδομένων τα οποία χρησιμοποιούνται σε μεγάλο βαθμό στις χρηματοπιστωτικές εφαρμογές.
Τα παράγωγα χαρακτηριστικά μπορούν να ληφθούν από απλούς υπολογισμούς, όπως η μείωση της ηλικίας από την ημερομηνία γέννησης. Τα παράγωγα χαρακτηριστικά μπορούν επίσης να υπολογιστούν με την περίληψη πληροφοριών από πολλαπλές εγγραφές.
Για παράδειγμα, η μετατροπή ενός πίνακα πελατών και των αγορασθέντων βιβλίων σε ένα τραπέζι μπορεί να σας δώσει τη δυνατότητα να παρακολουθείτε τον αριθμό των βιβλίων που πωλούνται μέσω ενός συστήματος συνιστώμενων, μέσω στοχευμένου μάρκετινγκ και σε μια έκθεση βιβλίου - και να προσδιορίσετε το δημογραφικό των πελατών αγόρασε αυτά τα βιβλία.
Η δημιουργία τέτοιων πρόσθετων χαρακτηριστικών φέρνει πρόσθετη προγνωστική δύναμη στην ανάλυση. Στην πραγματικότητα, πολλά τέτοια χαρακτηριστικά δημιουργούνται έτσι ώστε να διερευνούν την πιθανή προγνωστική τους δύναμη. Ορισμένα προγνωστικά μοντέλα ενδέχεται να χρησιμοποιούν πιο παράγωγα χαρακτηριστικά από τα χαρακτηριστικά στην ακατέργαστη κατάσταση τους. Εάν κάποια παράγωγα χαρακτηριστικά αποδειχθούν ιδιαίτερα προβλέψιμα και η ισχύς τους έχει αποδειχθεί ότι είναι σχετική, τότε είναι λογικό να αυτοματοποιείται η διαδικασία που τις δημιουργεί.
Τα παράγωγα αρχεία είναι νέες εγγραφές που φέρνουν νέες πληροφορίες και παρέχουν νέους τρόπους παρουσίασης ακατέργαστων δεδομένων. Μπορούν να έχουν τεράστια αξία για την πρόβλεψη της μοντελοποίησης.
Πώς να μειώσετε τη διαστασιολόγηση των δεδομένων σας
Τα δεδομένα που χρησιμοποιούνται στα μοντέλα πρόβλεψης συγκεντρώνονται συνήθως από πολλές πηγές. Η ανάλυσή σας μπορεί να αντληθεί από δεδομένα που είναι διάσπαρτα σε πολλαπλές μορφές δεδομένων, αρχεία και βάσεις δεδομένων ή σε πολλούς πίνακες μέσα στην ίδια βάση δεδομένων. Η συγκέντρωση των δεδομένων από κοινού και το συνδυασμό τους σε μια ολοκληρωμένη μορφή για τη χρήση των μοντέλων δεδομένων είναι απαραίτητη.
Αν τα δεδομένα σας περιέχουν ιεραρχικό περιεχόμενο, ίσως χρειαστεί να είναι πεπλατυσμένο . Ορισμένα δεδομένα έχουν ορισμένα ιεραρχικά χαρακτηριστικά όπως οι σχέσεις γονέα-παιδιού ή ένα αρχείο που αποτελείται από άλλα αρχεία.Για παράδειγμα, ένα προϊόν όπως ένα αυτοκίνητο μπορεί να έχει πολλαπλούς κατασκευαστές. σε αυτή την περίπτωση, σημαίνει ότι συμπεριλαμβάνεται κάθε κατασκευαστής ως πρόσθετο χαρακτηριστικό του αρχείου που αναλύετε.
Τα δεδομένα συμπλήρωσης είναι απαραίτητα όταν συγχωνεύονται από πολλαπλές σχετικές εγγραφές για να σχηματίσουν μια καλύτερη εικόνα.
Για παράδειγμα, η ανάλυση των ανεπιθύμητων ενεργειών για πολλά φάρμακα που παράγονται από αρκετές εταιρείες ενδέχεται να απαιτεί την ισοπέδωση των δεδομένων σε επίπεδο ουσίας. Κατ 'αυτόν τον τρόπο καταλήγετε στην κατάργηση των σχέσεων (σε αυτή την περίπτωση πολλοί κατασκευαστές και πολλές ουσίες για ένα προϊόν) που μπορεί να προκαλέσουν υπερβολική επανάληψη δεδομένων επαναλαμβάνοντας πολλαπλές καταχωρίσεις ουσιών που επαναλαμβάνουν πληροφορίες προϊόντος και κατασκευαστή σε κάθε είσοδο.
Η συμπίεση μειώνει την διαστάσεων των δεδομένων, η οποία αντιπροσωπεύεται από τον αριθμό των χαρακτηριστικών ενός ρεκόρ ή μιας παρατήρησης.
Για παράδειγμα, ένας πελάτης μπορεί να έχει τα ακόλουθα χαρακτηριστικά: όνομα, ηλικία, διεύθυνση, αντικείμενα που αγοράστηκαν. Όταν ξεκινάτε την ανάλυσή σας, μπορείτε να βρείτε τον εαυτό σας να αξιολογεί αρχεία με πολλά χαρακτηριστικά, μόνο μερικά από τα οποία είναι σημαντικά για την ανάλυση. Επομένως, πρέπει να εξαλείψετε όλα εκτός από τα πολύ λίγα χαρακτηριστικά που έχουν την πιο προγνωστική δύναμη για το συγκεκριμένο έργο σας.
Η μείωση της διαστάσεων των δεδομένων μπορεί να επιτευχθεί θέτοντας όλα τα δεδομένα σε έναν ενιαίο πίνακα ο οποίος χρησιμοποιεί πολλαπλές στήλες για να αντιπροσωπεύει χαρακτηριστικά ενδιαφέροντος. Στην αρχή της ανάλυσης, φυσικά, η ανάλυση πρέπει να αξιολογήσει έναν μεγάλο αριθμό στηλών - αλλά ο αριθμός αυτός μπορεί να περιοριστεί καθώς προχωρά η ανάλυση.
Η διαδικασία αυτή μπορεί να ενισχυθεί με την ανασύσταση των πεδίων - για παράδειγμα, με την ομαδοποίηση των δεδομένων σε κατηγορίες που έχουν παρόμοια χαρακτηριστικά.
Το σύνολο δεδομένων που προκύπτει - το καθαρισμένο σύνολο δεδομένων - τοποθετείται συνήθως σε ξεχωριστή βάση δεδομένων για τους αναλυτές που θα χρησιμοποιήσουν. Κατά τη διάρκεια της διαδικασίας μοντελοποίησης, τα δεδομένα αυτά πρέπει να είναι εύκολα προσβάσιμα, να διαχειρίζονται και να ενημερώνονται.