Πίνακας περιεχομένων:
Βίντεο: New Raspberry Pi 3 Tutorial - How to Set Up for Gaming & Entertainment Projects 2024
Για να μπορέσετε να εξαγάγετε ομάδες παρόμοιων στοιχείων δεδομένων από το σύνολο δεδομένων σας για το έργο σας πρόβλεψης ανάλυσης, ίσως χρειαστεί να αναπαριστάτε τα δεδομένα σας σε πίνακα μορφή γνωστή ως μήτρα δεδομένων . Αυτό είναι ένα βήμα προεπεξεργασίας που έρχεται πριν από την ομαδοποίηση δεδομένων.
Πώς να δημιουργήσετε μια μήτρα πρόβλεψης ανάλυσης όρων σε έγγραφα
Υποθέστε ότι το σύνολο δεδομένων που πρόκειται να αναλύσετε περιέχεται σε ένα σύνολο εγγράφων του Microsoft Word. Το πρώτο πράγμα που πρέπει να κάνετε είναι να μετατρέψετε το σύνολο των εγγράφων σε μια μήτρα δεδομένων. Αρκετά εμπορικά εργαλεία και εργαλεία ανοιχτού κώδικα μπορούν να χειριστούν αυτήν την εργασία δημιουργώντας έναν πίνακα, στον οποίο κάθε σειρά αντιστοιχεί σε ένα έγγραφο στο σύνολο δεδομένων. Παραδείγματα αυτών των εργαλείων περιλαμβάνουν τα πακέτα εξόρυξης κειμένου RapidMiner και R.
είναι ουσιαστικά ένα σύνολο λέξεων. Ένας όρος είναι ένα σύνολο μιας ή πολλαπλών λέξεων. Κάθε όρος που περιέχει ένα έγγραφο αναφέρεται είτε μία ή περισσότερες φορές στο ίδιο έγγραφο. Ο αριθμός των φορών που ένας όρος αναφέρεται σε ένα έγγραφο μπορεί να αναπαρασταθεί μεόρος συχνότητα (TF), μια αριθμητική τιμή. Κατασκευάζουμε τη μήτρα των όρων στο έγγραφο ως εξής:
Οι όροι που εμφανίζονται σε όλα τα έγγραφα παρατίθενται στην πάνω σειρά.
-
-
Οι αριθμοί που εμφανίζονται μέσα στα κελιά μήτρας αντιστοιχούν στη συχνότητα κάθε όρου.
-
Για παράδειγμα, το Έγγραφο Α αντιπροσωπεύεται ως σύνολο αριθμών (5, 16, 0, 19, 0, 0) όπου 5 αντιστοιχεί στον αριθμό επαναλήψεων του όρου
predictive analytics . αντιστοιχεί στον αριθμό έως τις επιστήμη των υπολογιστών επαναλαμβάνεται και ούτω καθεξής. Αυτός είναι ο απλούστερος τρόπος για τη μετατροπή ενός συνόλου εγγράφων σε μια μήτρα. 5
16 | 0 | Προγνωστική Analytics | Πληροφορική | 9 | 0 | |
---|---|---|---|---|---|---|
0 | 0 | 0 | Το έγγραφο C | 0 < 5 | 2 | 3 |
3 | 9 | Έγγραφο D | 1 | 9 | 13 | 4 |
6 | 7 > Έγγραφο E | 2 | 16 | 16 | 0 | 2 |
13 | Έγγραφο F | 13 | 0 | 19 | 16 > 4 | 2 |
Βασικά στοιχεία της επιλογής πρόβλεψης για την ανάλυση πρόβλεψης | Μια πρόκληση στη συγκέντρωση εγγράφων κειμένου καθορίζει τον τρόπο επιλογής των καλύτερων όρων που αντιπροσωπεύουν όλα τα έγγραφα της συλλογής. Η σημασία του όρου σε μια συλλογή εγγράφων μπορεί να υπολογιστεί με διάφορους τρόπους. | Εάν, για παράδειγμα, υπολογίζετε τον αριθμό των επαναλήψεων ενός όρου σε ένα έγγραφο και συγκρίνετε αυτό το σύνολο με το πόσο συχνά επαναλαμβάνεται σε ολόκληρη τη συλλογή, έχετε την αίσθηση της σημασίας του όρου σε σχέση με άλλους όρους. | Η βάση της σχετικής σημασίας ενός όρου για τη συχνότητά του σε μια συλλογή είναι συχνά γνωστή ως | βάρους | . Το βάρος που αντιστοιχίζετε μπορεί να βασιστεί σε δύο αρχές: | Οι όροι που εμφανίζονται πολλές φορές σε ένα έγγραφο ευνοούνται στους όρους που εμφανίζονται μόνο μία φορά. |
Οι όροι που χρησιμοποιούνται σε σχετικά λίγα έγγραφα ευνοούνται στους όρους που αναφέρονται σε όλα τα έγγραφα. | Εάν (για παράδειγμα) ο όρος | αιώνας | αναφέρεται σε όλα τα έγγραφα του συνόλου δεδομένων σας, τότε ίσως να μην θεωρήσετε ότι το βάρος του έχει αρκετό βάρος ώστε να έχει μια δική του στήλη στη μήτρα. | Ομοίως, εάν ασχολείσαι με ένα σύνολο δεδομένων χρηστών ενός διαδικτυακού κοινωνικού δικτύου, μπορείτε εύκολα να μετατρέψετε αυτό το σύνολο δεδομένων σε ένα πλέγμα. Τα αναγνωριστικά χρήστη ή τα ονόματα θα καταλαμβάνουν τις σειρές. οι στήλες θα απαριθμήσουν χαρακτηριστικά που περιγράφουν καλύτερα αυτούς τους χρήστες. |