Βίντεο: Leap Motion SDK 2024
Τα δεδομένα που περιέχονται σε βάσεις δεδομένων, έγγραφα, ηλεκτρονικά μηνύματα και άλλα αρχεία δεδομένων για προγνωστική ανάλυση μπορούν να κατηγοριοποιηθούν είτε ως δομημένα είτε ως μη δομημένα δεδομένα. Τα δομημένα δεδομένα είναι καλά οργανωμένα, ακολουθούν μια συνεπή σειρά, είναι σχετικά εύκολο να αναζητηθούν και να ερωτηθούν και μπορούν να προσπελαστούν εύκολα και να κατανοηθούν από ένα άτομο ή ένα πρόγραμμα υπολογιστή.
Ένα κλασικό παράδειγμα των δομημένων δεδομένων είναι ένα υπολογιστικό φύλλο Excel με επισημασμένες στήλες. Αυτά τα δομημένα δεδομένα είναι συνεπή. επικεφαλίδες στηλών - συνήθως σύντομες, ακριβείς περιγραφές του περιεχομένου σε κάθε στήλη - να σας πω ακριβώς ποιο περιεχόμενο θα περιμένετε.
Τα δομημένα δεδομένα αποθηκεύονται συνήθως σε καλά καθορισμένα σχήματα, όπως βάσεις δεδομένων. Είναι συνήθως πίνακες, με στήλες και σειρές που ορίζουν σαφώς τα χαρακτηριστικά του.
Δεδομένα μη δομημένα , από την άλλη πλευρά, τείνουν να είναι ελεύθερα, μη πινακοειδή, διασκορπισμένα και όχι εύκολα ανακτήσιμα. αυτά τα δεδομένα απαιτούν σκόπιμη παρέμβαση για να το κατανοήσουν. Διάφορα ηλεκτρονικά μηνύματα, έγγραφα, ιστοσελίδες και αρχεία (είτε κείμενο, ήχο και / ή βίντεο) σε διάσπαρτες τοποθεσίες είναι παραδείγματα μη δομημένων δεδομένων.
Είναι δύσκολο να κατηγοριοποιήσετε το περιεχόμενο των μη δομημένων δεδομένων. Τείνει να είναι ως επί το πλείστον κείμενο, είναι συνήθως δημιουργείται σε ένα φάσμα ελεύθερων μορφών και η εύρεση οποιωνδήποτε χαρακτηριστικών που μπορείτε να χρησιμοποιήσετε για να περιγράψετε ή να ομαδοποιήσετε δεν είναι μικρή εργασία.
Το περιεχόμενο των μη δομημένων δεδομένων είναι δύσκολο να λειτουργήσει ή να έχει λογική προγραμματισμό. Τα προγράμματα υπολογιστών δεν μπορούν να αναλύσουν ή να δημιουργήσουν αναφορές για τέτοια δεδομένα, απλώς και μόνο επειδή δεν διαθέτουν δομή, δεν έχουν υποκείμενο κυρίαρχο χαρακτηριστικό και μεμονωμένα στοιχεία δεδομένων δεν έχουν κοινό έδαφος.
Γενικά, υπάρχει υψηλότερο ποσοστό μη δομημένων δεδομένων από τα δομημένα δεδομένα στον κόσμο. Τα αδόμητα δεδομένα απαιτούν περισσότερη δουλειά για να το κάνουν χρήσιμο, έτσι ώστε να παίρνει περισσότερη προσοχή - επομένως τείνει να καταναλώνει περισσότερο χρόνο.
Μην υποτιμάτε τη σημασία των δομημένων δεδομένων και τη δύναμη που φέρνουν στην ανάλυσή σας. Είναι πολύ πιο αποτελεσματικό να αναλύονται δομημένα δεδομένα παρά να αναλύονται μη δομημένα δεδομένα. Τα μη δομημένα δεδομένα μπορεί επίσης να είναι δαπανηρά για να προεπεξεργαστείτε για ανάλυση καθώς δημιουργείτε ένα πρόγραμμα πρόβλεψης αναλυτικών στοιχείων. Η επιλογή των σχετικών δεδομένων, ο καθαρισμός τους και οι επακόλουθοι μετασχηματισμοί μπορεί να είναι μακρύς και κουραστική.
Τα προκύπτοντα πρόσφατα οργανωμένα δεδομένα από τα απαραίτητα βήματα προεπεξεργασίας μπορούν στη συνέχεια να χρησιμοποιηθούν σε ένα προγνωστικό μοντέλο ανάλυσης. Ωστόσο, ο χονδρικός μετασχηματισμός των μη δομημένων δεδομένων μπορεί να χρειαστεί να περιμένετε έως ότου λειτουργήσετε το πρότυπο αναλυτικής πρόγνωσης.
Η εξόρυξη δεδομένων και οι αναλύσεις κειμένου είναι δύο προσεγγίσεις για τη δόμηση εγγράφων κειμένου, τη σύνδεση των περιεχομένων τους, την ομαδοποίηση και τη σύνοψη των δεδομένων τους και την αποκάλυψη προτύπων σε αυτά τα δεδομένα. Και οι δύο κλάδοι παρέχουν ένα πλούσιο πλαίσιο αλγορίθμων και τεχνικών για την εξόρυξη του κειμένου διάσπαρτου σε μια θάλασσα εγγράφων.
Αξίζει επίσης να σημειωθεί ότι οι πλατφόρμες μηχανών αναζήτησης παρέχουν εύκολα διαθέσιμα εργαλεία για την ευρετηρίαση των δεδομένων και την αξιοποίησή τους.
Ας συγκρίνουμε δομημένα και αδόμητα δεδομένα.
Χαρακτηριστικά | Δομημένο | Αδόμητη |
---|---|---|
Ένωση | Οργανωμένη | Διακεκομμένη και διασκορπισμένη |
Εμφάνιση | πρόσβαση και ερώτημα | Σκληρό για πρόσβαση και ερώτηση |
Διαθεσιμότητα | Ποσοστό χαμηλότερο | Ποσοστό υψηλότερο |
Ανάλυση | Αποτελεσματικό για ανάλυση | Επιπρόσθετη προεπεξεργασία |
έλλειψη δομής - απλά πρέπει να το ξεριζώσετε. Ακόμη και το κείμενο μέσα σε ψηφιακά αρχεία εξακολουθεί να έχει κάποια δομή που συνδέεται με αυτό, συχνά εμφανίζεται στα μεταδεδομένα - για παράδειγμα, οι τίτλοι εγγράφων, οι ημερομηνίες των τελευταίων τροποποιήσεων των αρχείων και τα ονόματα των δημιουργών τους. | Το ίδιο ισχύει και για τα μηνύματα ηλεκτρονικού ταχυδρομείου: Τα περιεχόμενα μπορεί να είναι μη δομημένα, αλλά δομημένα δεδομένα συσχετίζονται με αυτά - για παράδειγμα, την ημερομηνία και ώρα αποστολής τους, τα ονόματα των αποστολέων και των παραληπτών τους, είτε περιέχουν συνημμένα. | Η γραμμή διαχωρισμού μεταξύ των δύο τύπων δεδομένων δεν είναι πάντα καθαρή. Σε γενικές γραμμές, μπορείτε πάντα να βρείτε μερικά χαρακτηριστικά αδόμητων δεδομένων που μπορούν να θεωρηθούν δομημένα δεδομένα. Το αν η δομή αυτή αντικατοπτρίζει το περιεχόμενο αυτών των δεδομένων - ή είναι χρήσιμο στην ανάλυση δεδομένων - δεν είναι σαφής στην καλύτερη περίπτωση. |
Για το λόγο αυτό, τα δομημένα δεδομένα μπορούν να κρατήσουν μη δομημένα δεδομένα μέσα σε αυτό. Σε μια φόρμα ιστού, για παράδειγμα, μπορεί να ζητηθεί από τους χρήστες να δώσουν ανατροφοδότηση σχετικά με ένα προϊόν, επιλέγοντας μια απάντηση από πολλαπλές επιλογές - αλλά παρουσιάζονται επίσης με ένα πλαίσιο σχολίων όπου μπορούν να παράσχουν επιπλέον σχόλια.
Οι απαντήσεις από τις πολλαπλές επιλογές είναι δομημένες. το πεδίο σχολίων είναι αδόμητο λόγω της ελεύθερης φύσης του. Τέτοιες περιπτώσεις κατανοούνται καλύτερα ως ένα μίγμα δομημένων και μη δομημένων δεδομένων. Τα περισσότερα δεδομένα είναι σύνθετα και από τα δύο.
Για ένα επιτυχημένο πρόγραμμα προγνωστικών αναλύσεων, τόσο τα δομημένα όσο και τα μη δομημένα δεδομένα σας πρέπει να συνδυάζονται σε λογική μορφή που μπορεί να αναλυθεί.