Πίνακας περιεχομένων:
Βίντεο: Build Tomorrow's Library by Jeffrey Licht 2024
Τα αδόμητα δεδομένα είναι δεδομένα που δεν ακολουθούν μια καθορισμένη μορφή για μεγάλα δεδομένα. Εάν το 20% των δεδομένων που είναι διαθέσιμα στις επιχειρήσεις είναι δομημένα δεδομένα, το άλλο 80% είναι μη δομημένο. Τα μη δομημένα δεδομένα είναι πραγματικά τα περισσότερα από τα δεδομένα που θα συναντήσετε. Μέχρι πρόσφατα, ωστόσο, η τεχνολογία δεν υποστήριζε πραγματικά να κάνει πολλά μαζί της, εκτός από την αποθήκευση ή την ανάλυσή της με το χέρι.
Πηγές μη δομημένων μεγάλων δεδομένων
Τα αδόμητα δεδομένα είναι παντού. Στην πραγματικότητα, τα περισσότερα άτομα και οργανώσεις ασχολούνται με τη ζωή τους γύρω από αδόμητα δεδομένα. Όπως συμβαίνει με τα δομημένα δεδομένα, τα μη δομημένα δεδομένα είναι είτε μηχανικά είτε παράγονται από ανθρώπους.
Παρακάτω παρουσιάζονται μερικά μη-δομημένα δεδομένα:
-
Εικόνες δορυφόρων: Περιλαμβάνονται τα δεδομένα καιρού ή τα δεδομένα που συλλαμβάνει η κυβέρνηση στις εικόνες δορυφορικής επιτήρησης. Απλά σκεφτείτε το Google Earth και θα έχετε την εικόνα.
-
Επιστημονικά δεδομένα: Αυτό περιλαμβάνει σεισμικές εικόνες, ατμοσφαιρικά δεδομένα και φυσική υψηλής ενέργειας.
-
Φωτογραφίες και βίντεο: Περιλαμβάνει βίντεο ασφαλείας, παρακολούθησης και κίνησης.
-
Δεδομένα ραντάρ ή σόναρ: Περιλαμβάνονται τα οχηματοκινητικά, μετεωρολογικά και ωκεανογραφικά σεισμικά χαρακτηριστικά.
Η παρακάτω λίστα παρουσιάζει μερικά παραδείγματα μη-δομημένων δεδομένων:
-
Κείμενο εσωτερικό της επιχείρησής σας: Σκεφτείτε όλο το κείμενο μέσα σε έγγραφα, ημερολόγια, αποτελέσματα έρευνας και e-mails. Οι πληροφορίες για την επιχείρηση αντιπροσωπεύουν στην πραγματικότητα ένα μεγάλο ποσοστό των πληροφοριών κειμένου στον κόσμο σήμερα.
-
Δεδομένα κοινωνικών μέσων: Αυτά τα δεδομένα δημιουργούνται από τις πλατφόρμες κοινωνικών μέσων όπως το YouTube, το Facebook, το Twitter, το LinkedIn και το Flickr.
-
Δεδομένα για κινητά: Περιλαμβάνονται δεδομένα όπως μηνύματα κειμένου και πληροφορίες τοποθεσίας.
-
περιεχόμενο ιστότοπου: Αυτό προέρχεται από οποιονδήποτε ιστό που παρέχει μη δομημένο περιεχόμενο, όπως το YouTube, το Flickr ή το Instagram.
Και η λίστα συνεχίζεται.
Μερικοί άνθρωποι πιστεύουν ότι ο όρος μη δομημένα δεδομένα είναι παραπλανητικός επειδή κάθε έγγραφο μπορεί να περιέχει τη δική του συγκεκριμένη δομή ή μορφοποίηση με βάση το λογισμικό που το δημιούργησε. Ωστόσο, αυτό που είναι εσωτερικό του εγγράφου είναι πραγματικά αδόμητο.
Μέχρι στιγμής, τα μη δομημένα δεδομένα είναι το μεγαλύτερο κομμάτι της εξίσωσης δεδομένων και οι περιπτώσεις χρήσης για μη δομημένα δεδομένα επεκτείνονται γρήγορα. Από την πλευρά του κειμένου μόνο, τα αναλυτικά κείμενα μπορούν να χρησιμοποιηθούν για την ανάλυση μη δομημένου κειμένου και για την εξαγωγή σχετικών δεδομένων και τη μετατροπή αυτών των δεδομένων σε δομημένες πληροφορίες που μπορούν να χρησιμοποιηθούν με διάφορους τρόπους.
Για παράδειγμα, μια δημοφιλής περίπτωση χρήσης μεγάλων δεδομένων είναι τα social media analytics για χρήση με συνομιλίες πελατών υψηλού όγκου. Επιπλέον, αναλύονται μη δομημένα δεδομένα από σημειώσεις κέντρου κλήσεων, ηλεκτρονικά μηνύματα, γραπτά σχόλια σε μια έρευνα και άλλα έγγραφα για την κατανόηση της συμπεριφοράς των πελατών. Αυτό μπορεί να συνδυαστεί με τα μέσα κοινωνικής δικτύωσης από δεκάδες εκατομμύρια πηγές για την κατανόηση της εμπειρίας των πελατών.
Ο ρόλος ενός CMS στη διαχείριση μεγάλων δεδομένων
Οι οργανισμοί αποθηκεύουν ορισμένα μη δομημένα δεδομένα σε βάσεις δεδομένων. Ωστόσο, χρησιμοποιούν επίσης συστήματα διαχείρισης περιεχομένου επιχειρήσεων (CMS) τα οποία μπορούν να διαχειριστούν τον πλήρη κύκλο ζωής του περιεχομένου. Αυτό μπορεί να περιλαμβάνει το περιεχόμενο ιστού, το περιεχόμενο εγγράφου και άλλα έντυπα μέσα.
Σύμφωνα με την Ένωση για τη Διαχείριση Πληροφοριών και Εικόνας (AIIM), μια μη κερδοσκοπική οργάνωση που παρέχει εκπαίδευση, έρευνα και βέλτιστες πρακτικές, η Enterprise Content Management (ECM) περιλαμβάνει τις «στρατηγικές, μεθόδους και εργαλεία που χρησιμοποιούνται για τη συλλογή, αποθήκευση, διατήρηση και παράδοση περιεχομένου και εγγράφων που σχετίζονται με οργανωτικές διαδικασίες. "Οι τεχνολογίες που περιλαμβάνονται στην ECM περιλαμβάνουν τη διαχείριση εγγράφων, τη διαχείριση αρχείων, την απεικόνιση, τη διαχείριση ροής εργασίας, τη διαχείριση περιεχομένου ιστού και τη συνεργασία.
Έχει αναπτυχθεί ολόκληρη η βιομηχανία γύρω από τη διαχείριση περιεχομένου και πολλοί πωλητές διαχείρισης περιεχομένου εξελίσσουν τις λύσεις τους για να χειριστούν μεγάλους όγκους μη δομημένων δεδομένων. Ωστόσο, εξελίσσονται επίσης νέες τεχνολογίες για την υποστήριξη μη δομημένων δεδομένων και η ανάλυση μη δομημένων δεδομένων. Ορισμένα από αυτά υποστηρίζουν δομημένα και μη δομημένα δεδομένα. Μερικοί υποστηρίζουν ροές σε πραγματικό χρόνο. Αυτές περιλαμβάνουν τεχνολογίες όπως Hadoop, MapReduce και streaming.
Συστήματα που έχουν σχεδιαστεί για την αποθήκευση περιεχομένου με τη μορφή συστημάτων διαχείρισης περιεχομένου δεν είναι πλέον αυτόνομες λύσεις. Αντίθετα, είναι πιθανό να αποτελούν μέρος μιας συνολικής λύσης διαχείρισης δεδομένων. Για παράδειγμα, ο οργανισμός σας μπορεί να παρακολουθεί τις τροφοδοσίες του Twitter, οι οποίες στη συνέχεια μπορούν να ενεργοποιήσουν με προγραμματισμό μια αναζήτηση CMS.
Τώρα, ο χρήστης που ενεργοποίησε το tweet παίρνει μια απάντηση πίσω που προσφέρει μια θέση όπου το άτομο μπορεί να βρει το προϊόν που αυτός ή αυτή μπορεί να ψάχνει. Το μεγαλύτερο όφελος είναι όταν αυτό το είδος της αλληλεπίδρασης μπορεί να συμβεί σε πραγματικό χρόνο. Επίσης, απεικονίζει την αξία της αξιοποίησης των αδόμητων, δομημένων (δεδομένα πελατών σχετικά με το άτομο που tweeted) σε πραγματικό χρόνο και των ημιδομημένων δεδομένων (το πραγματικό περιεχόμενο στο CMS).
Η πραγματικότητα είναι ότι πιθανότατα θα χρησιμοποιήσετε μια υβριδική προσέγγιση για να λύσετε τα μεγάλα προβλήματα δεδομένων σας. Για παράδειγμα, δεν έχει νόημα να μεταφέρετε όλα τα περιεχόμενά σας ειδήσεων, για παράδειγμα, σε Hadoop στις εγκαταστάσεις σας, επειδή υποτίθεται ότι θα βοηθήσει στη διαχείριση μη δομημένων δεδομένων.