Βίντεο: Web Scraping with Nokogirl/Kimono by Robert Krabek 2024
Υπάρχουν πολλές μέθοδοι για την ανάλυση μη δομημένων δεδομένων για την πρωτοβουλία μεγάλων δεδομένων. Ιστορικά, αυτές οι τεχνικές προήλθαν από τεχνικούς τομείς όπως η Επεξεργασία Φυσικής Γλώσσας (NLP), η ανακάλυψη γνώσεων, η εξόρυξη δεδομένων, η ανάκτηση πληροφοριών και τα στατιστικά στοιχεία. Το analytics κειμένου είναι η διαδικασία ανάλυσης μη δομημένου κειμένου, η εξαγωγή σχετικών πληροφοριών και η μετατροπή του σε δομημένες πληροφορίες που μπορούν στη συνέχεια να αξιοποιηθούν με διάφορους τρόπους.
Οι διαδικασίες ανάλυσης και εξαγωγής εκμεταλλεύονται τεχνικές που προέρχονται από την υπολογιστική γλωσσολογία, τις στατιστικές και άλλους κλάδους της πληροφορικής.
Μερικές φορές ένα παράδειγμα μπορεί να σας βοηθήσει να εξηγήσετε ένα σύνθετο θέμα. Ας υποθέσουμε ότι εργάζεστε για το τμήμα μάρκετινγκ σε μια εταιρεία ασύρματης τηλεφωνίας. Μόλις ξεκινήσατε δύο νέα σχέδια κλήσεων - το Σχέδιο Α και το Σχέδιο Β - και δεν παίρνετε την πρόσληψη που επιθυμείτε στο Σχέδιο Α. Το αδόμητο κείμενο από τις σημειώσεις του τηλεφωνικού κέντρου μπορεί να σας δώσει κάποια εικόνα για το γιατί συνέβη αυτό.
Οι υπογραμμισμένες λέξεις παρέχουν τις πληροφορίες που μπορεί να χρειαστεί να καταλάβετε γιατί το σχέδιο Α δεν αποκτά ταχεία υιοθέτηση. Για παράδειγμα, το Σχέδιο οντότητας A εμφανίζεται σε όλες τις σημειώσεις του κέντρου κλήσεων, υποδεικνύοντας ότι οι αναφορές αναφέρουν το σχέδιο.
Οι όροι , τα δεδομένα 4GB, τα δεδομένα, τα και τα ακριβά αποτελούν ένδειξη ότι υπάρχει ένα ζήτημα με τα λεπτά επαναφοράς, το σχέδιο δεδομένων και την τιμή. Λόγοι όπως το γελοίο και το ηλίθιο παρέχουν διορατικότητα στο συναίσθημα του καλούντος, το οποίο σε αυτή την περίπτωση είναι αρνητικό.
ΑναγνωριστικόΟντότητα | Έκδοση | Εμπιστοσύνη | Cust XYZ |
---|---|---|---|
Σχέδιο A | Χρονοδιάγραμμα | Αρνητικό | |
XXXX | Σχέδιο A | Ακριβό | Ουδέτερο |
XXXX | Σχέδιο A | > Σχέδιο A | Σχέδιο δεδομένων |
Αρνητικό | Μπορεί να το εξετάσετε και να πείτε: "Αλλά θα μπορούσα να το καταλάβω εξετάζοντας τα αρχεία τηλεφωνικού κέντρου. "Ωστόσο, πρόκειται για ένα μικρό υποσύνολο των πληροφοριών που καταγράφονται από χιλιάδες πράκτορες τηλεφωνικού κέντρου. Κάθε μεμονωμένος πράκτορας δεν μπορεί να αισθανθεί μια ευρεία τάση σχετικά με το πρόβλημα με κάθε σχέδιο που προσφέρεται από την εταιρεία. | Οι πράκτορες δεν έχουν το χρόνο ή την απαίτηση να μοιράζονται αυτές τις πληροφορίες σε όλους τους άλλους πράκτορες του τηλεφωνικού κέντρου που ενδέχεται να λαμβάνουν παρόμοιο αριθμό κλήσεων σχετικά με το Σχέδιο Α. Εντούτοις, αφού συγκεντρωθούν και επεξεργαστούν αυτές οι πληροφορίες χρησιμοποιώντας αλγόριθμους ανάλυσης κειμένου, μπορεί να προκύψει από αυτά τα αδόμητα δεδομένα. Αυτό κάνει τις αναλύσεις κειμένου τόσο ισχυρές. | Η αναζήτηση αφορά την ανάκτηση ενός εγγράφου με βάση τους τελικούς χρήστες που ήδη γνωρίζουν ότι αναζητούν. Οι αναλύσεις κειμένων αφορούν στην ανακάλυψη πληροφοριών. Ενώ τα αναλυτικά στοιχεία κειμένου διαφέρουν από την αναζήτηση, μπορεί να αυξήσουν τις τεχνικές αναζήτησης. Για παράδειγμα, οι αναλύσεις κειμένων σε συνδυασμό με την αναζήτηση μπορούν να χρησιμοποιηθούν για την καλύτερη κατηγοριοποίηση ή ταξινόμηση των εγγράφων και για την παραγωγή περιλήψεων ή περιλήψεων εγγράφων. |
Υπάρχουν τέσσερις τεχνολογίες: αναζήτηση, εξόρυξη δεδομένων, αναζήτηση και ανάλυση κειμένου. Στην αριστερή πλευρά του πίνακα υπάρχει ερώτημα και αναζήτηση, τα οποία αφορούν και την ανάκτηση. Για παράδειγμα, ένας τελικός χρήστης θα μπορούσε να αναζητήσει μια βάση δεδομένων για να μάθετε πόσους πελάτες σταμάτησαν να χρησιμοποιούν τις υπηρεσίες της εταιρείας τον περασμένο μήνα. | Το ερώτημα θα επιστρέψει έναν μόνο αριθμό. Μόνο ζητώντας περισσότερα και διαφορετικά ερωτήματα, ο τελικός χρήστης θα αποκτήσει τις απαραίτητες πληροφορίες για να καθορίσει τους λόγους για τους οποίους οι πελάτες αποχωρούν. Ομοίως, η αναζήτηση λέξεων-κλειδιών επιτρέπει στον τελικό χρήστη να βρει τα έγγραφα που περιέχουν τα ονόματα των ανταγωνιστών μιας εταιρείας. Η αναζήτηση θα επιστρέψει μια ομάδα εγγράφων. Μόνο με την ανάγνωση των εγγράφων θα έρθει ο τελικός χρήστης με όλες τις σχετικές απαντήσεις. | Ανάκτηση | Insight |
Δομημένο
Έρευνα: Επιστρέφει δεδομένα
Εξόρυξη δεδομένων: Insight από δομημένα δεδομένα