Πίνακας περιεχομένων:
Βίντεο: Age of Deceit (2) - Hive Mind Reptile Eyes Hypnotism Cults World Stage - Multi - Language 2024
τα δεδομένα πρόβλεψης αναλυτικών στοιχείων που πρέπει να γνωρίζετε για να βρείτε τις πληροφορίες που θέλετε να βρείτε. Υπάρχουν δύο βασικές έννοιες για την αναζήτηση των δεδομένων σας κατά την προετοιμασία για τη χρήση της σε προγνωστικά:
-
Προετοιμασία για να προχωρήσετε πέρα από τη βασική αναζήτηση λέξεων-κλειδιών
-
Κάνοντας τα δεδομένα σας με δυνατότητα αναζήτησης
analytics
Φανταστείτε αν σας επιφορτίσθηκε η αναζήτηση μεγάλων ποσοτήτων δεδομένων. Ένας τρόπος προσέγγισης του προβλήματος είναι η έκδοση ενός ερωτήματος αναζήτησης που αποτελείται (προφανώς) από λέξεις. Το εργαλείο αναζήτησης αναζητά λέξεις που ταιριάζουν στη βάση δεδομένων, στην αποθήκη δεδομένων ή μετακινείται σε οποιοδήποτε κείμενο στο οποίο βρίσκονται τα δεδομένα σας.
Υποθέστε ότι εκδίδετε το ακόλουθο ερώτημα αναζήτησης: ο Πρόεδρος των Ηνωμένων Πολιτειών επισκέπτεται την Αφρική . Τα αποτελέσματα αναζήτησης θα αποτελούνται από κείμενο που περιέχει ακριβώς ένα ή συνδυασμό των λέξεων Πρόεδρος, Ηνωμένες Πολιτείες, επισκέψεις, Αφρική . Μπορεί να έχετε τις ακριβείς πληροφορίες που ψάχνετε, αλλά όχι πάντα.
Τι συμβαίνει με τα έγγραφα που δεν περιέχουν καμία από τις λέξεις που αναφέρθηκαν προηγουμένως, αλλά κάποιο συνδυασμό των παρακάτω: Το ταξίδι του Ομπάμα στην Κένυα .
Καμία από τις λέξεις που αναζητήσατε αρχικά δεν υπάρχει - αλλά τα αποτελέσματα αναζήτησης είναι σημασιολογικά (ουσιαστικά) χρήσιμα. Πώς μπορείτε να προετοιμάσετε τα δεδομένα σας ώστε να μπορούν να ανακτηθούν σημασιολογικά; Πώς μπορείτε να υπερβείτε την παραδοσιακή αναζήτηση λέξεων-κλειδιών; Οι απαντήσεις σας μπορούν να βρεθούν αν συνεχίσετε να διαβάζετε.
Πώς να χρησιμοποιήσετε αναζητήσεις με βάση τη σημασιολογία σε προγνωστικές αναλύσεις
Μια απεικόνιση του τρόπου με τον οποίο λειτουργεί η σημασιολογική αναζήτηση είναι ένα έργο που ο Anasse Bari οδήγησε στον όμιλο της Παγκόσμιας Τράπεζας, είναι η καταπολέμηση της φτώχειας σε όλο τον κόσμο.
Το έργο αποσκοπούσε στη διερεύνηση της υπάρχουσας μεγάλης κλίμακας επιχειρηματικής έρευνας και ανάλυσης στην αγορά και στην κατασκευή ενός πρωτοτύπου για ένα πρωτοποριακό πλαίσιο που θα οργανώνει τα στοιχεία της Παγκόσμιας Τράπεζας - τα περισσότερα από τα οποία ήταν μια μη δομημένη συλλογή εγγράφων, δημοσιεύσεων, εκθέσεων σχεδίων, ενημερωτικά δελτία και μελέτες περιπτώσεων.
Αυτή η τεράστια πολύτιμη γνώση είναι ένας πόρος που χρησιμοποιείται για την κύρια αποστολή της Τράπεζας να μειώσει τη φτώχεια στον κόσμο. Αλλά το γεγονός ότι είναι αδόμητο καθιστά δύσκολη την πρόσβαση, τη σύλληψη, την κοινή χρήση, την κατανόηση, την αναζήτηση, το ορυχείο δεδομένων και την οπτικοποίηση.
Η Παγκόσμια Τράπεζα είναι μια τεράστια οργάνωση, με πολλά τμήματα σε όλο τον κόσμο. Ένα από τα βασικά τμήματα προσπαθούσε να έχει ένα πλαίσιο και ήταν έτοιμο να διαθέσει πόρους για να βοηθήσει την ομάδα Μπάρι ήταν το Δίκτυο Ανθρώπινης Ανάπτυξης στην Παγκόσμια Τράπεζα.
Ο αντιπρόεδρος του Δικτύου Ανθρώπινης Ανάπτυξης περιέγραψε ένα πρόβλημα που προέκυψε από την ασάφεια: Το τμήμα του χρησιμοποίησε αρκετούς όρους και έννοιες που είχαν το ίδιο γενικό νόημα αλλά διαφορετικές αποχρώσεις.
Για παράδειγμα, όροι όπως η κλιματολογία, η κλιματική αλλαγή, η μείωση του όζοντος του αερίου, και εκπομπές θερμοκηπίου ήταν όλοι σημασιολογικά, αλλά όχι πανομοιότυπες. Ήθελε μια ικανότητα αναζήτησης αρκετά έξυπνη ώστε να εξάγει έγγραφα που περιείχαν σχετικές έννοιες όταν κάποιος έβλεπε κάποιον από αυτούς τους όρους. Το πρωτότυπο πλαίσιο για την ικανότητα που επέλεξε η ομάδα του Μπάρι ήταν η Αρχιτεκτονική Διαχείρισης Αδόμητων Πληροφοριών (UIMA), μια λύση που βασίζεται σε λογισμικό. Αρχικά σχεδιασμένο από την IBM Research, το UIMA είναι διαθέσιμο σε λογισμικό της IBM, όπως το IBM Content Analytics, ένα από τα εργαλεία που τροφοδοτούσαν τον IBM Watson, τον διάσημο υπολογιστή που κέρδισε το παιχνίδι Jeopardy.
Η ομάδα Bari ένωσε τις δυνάμεις της με μια πολύ ταλαντούχα ομάδα από την IBM Content Management και Enterprise Search και αργότερα με μια ομάδα του IBM Watson, για να συνεργαστεί σε αυτό το έργο.
Η λύση
της διαχείρισης αδόμητων πληροφοριών (UIM) είναι ένα σύστημα λογισμικού που αναλύει μεγάλους όγκους αδόμητων πληροφοριών (κείμενο, ήχο, βίντεο, εικόνες κλπ.) Για να ανακαλύψει, τον πελάτη ή τον τελικό χρήστη της εφαρμογής. Η οντολογία
ενός τομέα είναι μια σειρά από έννοιες και συναφείς όρους ειδικά για έναν τομέα. Μια λύση βασισμένη στο UIMA χρησιμοποιεί οντολογίες για να παρέχει σημασιολογική σήμανση, η οποία επιτρέπει εμπλουτισμένη αναζήτηση ανεξάρτητα από τη μορφή δεδομένων (κείμενο, ομιλία, παρουσίαση του PowerPoint, ηλεκτρονικό ταχυδρομείο, βίντεο κ.ο.κ.). Το UIMA προσθέτει ένα άλλο στρώμα στα ληφθέντα δεδομένα και στη συνέχεια προσθέτει μεταδεδομένα για τον εντοπισμό δεδομένων που μπορούν να δομηθούν και να αναζητηθούν σημασιολογικά. Η σημασιολογική αναζήτηση
βασίζεται στην έννοια συμφραζομένων των όρων αναζήτησης όπως εμφανίζονται στον χώρο δεδομένων που αναζητά το UIMA που δημιουργεί. Η σημασιολογική αναζήτηση είναι ακριβέστερη από τη συνηθισμένη αναζήτηση με βάση λέξεις-κλειδιά επειδή ένα ερώτημα χρήστη επιστρέφει αποτελέσματα αναζήτησης όχι μόνο εγγράφων που περιέχουν τους όρους αναζήτησης αλλά και εγγράφων σημασιολογικά σχετικών με το ερώτημα. Αν αναζητάτε
βιοποικιλότητα στην Αφρική , μια τυπική αναζήτηση (βασισμένη σε λέξεις-κλειδιά) θα επιστρέψει έγγραφα που έχουν τις ακριβείς λέξεις βιοποικιλότητα . Μια σημασιολογική αναζήτηση βασισμένη στο UIMA θα επιστρέψει όχι μόνο τα έγγραφα που περιέχουν αυτές τις δύο λέξεις αλλά και οτιδήποτε είναι σημασιολογικά σχετικό με τα έγγραφα της «βιοποικιλότητας στην Αφρική» που περιέχουν τέτοιους συνδυασμούς λέξεων όπως «πόροι φυτών στην Αφρική», Μαρόκο "ή" γενετικοί πόροι στη Ζιμπάμπουε. " Μέσω της σημασιολογικής σήμανσης και της χρήσης οντολογιών, οι πληροφορίες γίνονται σημασιολογικά ανακτήσιμες ανεξάρτητα από τη γλώσσα ή το μέσο στο οποίο δημιουργήθηκαν οι πληροφορίες (Word, PowerPoint, e-mail, βίντεο κλπ.). Αυτή η λύση παρέχει έναν ενιαίο κόμβο, όπου τα δεδομένα μπορούν να συλλεχθούν, να οργανωθούν, να αντικατασταθούν και να καταστούν σημασιολογικά ανακτήσιμα. Τα λεξικά των συνωνύμων και των σχετικών όρων είναι ανοικτού κώδικα (ελεύθερα διαθέσιμα) - ή μπορείτε να αναπτύξετε δικά σας λεξικά ειδικά για τον τομέα σας ή τα δεδομένα σας. Μπορείτε να δημιουργήσετε ένα υπολογιστικό φύλλο με τη ριζική λέξη και τις αντίστοιχες σχετικές λέξεις, συνώνυμα και ευρύτερους όρους. Το υπολογιστικό φύλλο μπορεί να μεταφορτωθεί σε ένα εργαλείο αναζήτησης, όπως το IBM Content Analytics (ICA), για την τροφοδοσία της αναλυτικής αναζήτησης επιχειρήσεων και περιεχομένου.