Τα μεγάλα δεδομένα για τα ανδρείκελα Cheat Sheet - dummies

Οι εταιρείες πρέπει να βρουν έναν πρακτικό τρόπο αντιμετώπισης των μεγάλων δεδομένων για να παραμείνουν ανταγωνιστικοί - να μάθουν νέους τρόπους για να συλλέξουν και να αναλύσουν αυξανόμενα ποσά των πληροφοριών σχετικά με τους πελάτες, τα προϊόντα και τις υπηρεσίες. Τα δεδομένα καθίστανται όλο και πιο πολύπλοκα με δομημένους και αδόμητους τρόπους. Νέες πηγές δεδομένων προέρχονται από μηχανές, όπως αισθητήρες. κοινωνικές επιχειρηματικές τοποθεσίες. και την αλληλεπίδραση ιστότοπου, όπως δεδομένα ροής κλικ. Η ικανοποίηση αυτών των μεταβαλλόμενων επιχειρησιακών απαιτήσεων απαιτεί να υπάρχουν οι σωστές πληροφορίες εγκαίρως.

Μεγάλα δεδομένα επιτρέπουν στους οργανισμούς να αποθηκεύουν, να διαχειρίζονται και να χειρίζονται τεράστιες ποσότητες ανόμοιων δεδομένων με τη σωστή ταχύτητα και την κατάλληλη στιγμή. Για να αποκτήσετε τις σωστές γνώσεις, τα μεγάλα δεδομένα τυπικά κατανέμονται ανά τρία χαρακτηριστικά:

Όγκος:

Πόσα δεδομένα

Ταχύτητα: Πως επεξεργάζονται τα δεδομένα
Ποικιλία: τύποι δεδομένων
Ενώ είναι βολικό να απλοποιηθούν τα μεγάλα δεδομένα στα τρία Vs, μπορεί να είναι παραπλανητικά και υπερβολικά απλοϊκά. Για παράδειγμα, μπορεί να διαχειρίζεστε ένα σχετικά μικρό αριθμό πολύ διαφορετικών, πολύπλοκων δεδομένων ή μπορεί να επεξεργάζεστε έναν τεράστιο όγκο πολύ απλών δεδομένων. Αυτά τα απλά δεδομένα μπορεί να είναι όλα δομημένα ή όλα αδόμητα.
Ακόμη πιο σημαντικό είναι η τέταρτη V,

αλήθεια.

Πόσο ακριβείς είναι τα δεδομένα στην πρόβλεψη της επιχειρηματικής αξίας; Τα αποτελέσματα μιας μεγάλης ανάλυσης δεδομένων έχουν νόημα; Τα δεδομένα πρέπει να μπορούν να επαληθευτούν με βάση τόσο την ακρίβεια όσο και το πλαίσιο. Μια καινοτόμος επιχείρηση μπορεί να θέλει να είναι σε θέση να αναλύσει τεράστια ποσά δεδομένων σε πραγματικό χρόνο για να αξιολογήσει γρήγορα την αξία αυτού του πελάτη και τη δυνατότητα να προσφέρει πρόσθετες προσφορές σε αυτόν τον πελάτη. Είναι απαραίτητο να εντοπιστεί το σωστό ποσό και τύποι δεδομένων που μπορούν να αναλυθούν σε πραγματικό χρόνο για να επηρεάσουν τα αποτελέσματα των επιχειρήσεων.

Μεγάλα δεδομένα ενσωματώνουν όλες τις ποικιλίες δεδομένων, συμπεριλαμβανομένων δομημένων δεδομένων και μη δομημένων δεδομένων από ηλεκτρονικά μηνύματα, κοινωνικά μέσα, ροές κειμένου κ.ο.κ. Αυτό το είδος διαχείρισης δεδομένων απαιτεί από τις εταιρείες να αξιοποιούν τόσο τα δομημένα όσο και τα αδόμητα δεδομένα τους.

Κατανόηση των μη δομημένων δεδομένων

Τα αδόμητα δεδομένα είναι διαφορετικά από τα δομημένα δεδομένα, καθώς η δομή τους είναι απρόβλεπτη. Παραδείγματα μη δομημένων δεδομένων περιλαμβάνουν έγγραφα, ηλεκτρονικά μηνύματα, ιστολόγια, ψηφιακές εικόνες, βίντεο και δορυφορικές εικόνες. Περιλαμβάνει επίσης ορισμένα δεδομένα που παράγονται από μηχανές ή αισθητήρες. Στην πραγματικότητα, τα μη δομημένα δεδομένα αντιπροσωπεύουν την πλειοψηφία των δεδομένων που βρίσκονται στις εγκαταστάσεις της επιχείρησής σας καθώς και εξωτερικά της εταιρείας σας σε ιδιωτικές ιδιωτικές και δημόσιες πηγές όπως το Twitter και το Facebook.

Στο παρελθόν, οι περισσότερες εταιρείες δεν κατάφεραν να συλλάβουν ούτε να αποθηκεύσουν αυτό το τεράστιο όγκο δεδομένων. Ήταν απλά πάρα πολύ ακριβό ή πολύ συντριπτικό. Ακόμα και αν οι επιχειρήσεις ήταν σε θέση να καταγράψουν τα δεδομένα, δεν είχαν τα εργαλεία για να αναλύσουν εύκολα τα δεδομένα και να χρησιμοποιήσουν τα αποτελέσματα για να λάβουν αποφάσεις. Πολύ λίγα εργαλεία θα μπορούσαν να έχουν νόημα για αυτές τις τεράστιες ποσότητες δεδομένων. Τα εργαλεία που υπήρχαν ήταν πολύπλοκα στη χρήση και δεν παρήγαγαν αποτελέσματα σε εύλογο χρονικό διάστημα.

Στο τέλος, όσοι πραγματικά ήθελαν να πάνε στην τεράστια προσπάθεια να αναλύσουν αυτά τα δεδομένα αναγκάστηκαν να εργαστούν με στιγμιότυπα δεδομένων. Αυτό έχει τις ανεπιθύμητες συνέπειες της έλλειψης σημαντικών γεγονότων επειδή δεν ήταν σε μια συγκεκριμένη στιγμή.

Μια προσέγγιση που γίνεται ολοένα και περισσότερο εκτιμημένη ως τρόπος απόκτησης επιχειρησιακής αξίας από μη δομημένα δεδομένα είναι

αναλυτικά κειμένου, η διαδικασία ανάλυσης μη δομημένου κειμένου, η εξαγωγή σχετικών πληροφοριών και η μετατροπή της σε δομημένες πληροφορίες που μπορούν στη συνέχεια να αξιοποιηθεί με διάφορους τρόπους. Οι διαδικασίες ανάλυσης και εξαγωγής εκμεταλλεύονται τεχνικές που προέρχονται από την υπολογιστική γλωσσολογία, τις στατιστικές και άλλους κλάδους των υπολογιστών. Ο ρόλος των παραδοσιακών λειτουργικών δεδομένων στο περιβάλλον μεγάλων δεδομένων Η γνώση των αποθηκευμένων δεδομένων και των αποθηκευμένων δεδομένων αποτελούν κρίσιμα στοιχεία για την υλοποίηση των μεγάλων δεδομένων σας. Είναι απίθανο να χρησιμοποιήσετε RDBMS για τον πυρήνα της εφαρμογής, αλλά είναι πολύ πιθανό ότι θα χρειαστεί να βασιστείτε στα δεδομένα που είναι αποθηκευμένα σε RDBMSs για να δημιουργήσετε το υψηλότερο επίπεδο αξίας στην επιχείρηση με μεγάλα δεδομένα.

Οι περισσότερες μεγάλες και μικρές επιχειρήσεις αποθηκεύουν κατά πάσα πιθανότητα τις περισσότερες σημαντικές επιχειρησιακές πληροφορίες τους σε συστήματα διαχείρισης σχεσιακών βάσεων δεδομένων (RDBMS), τα οποία βασίζονται σε μία ή περισσότερες σχέσεις και αντιπροσωπεύονται από πίνακες. Αυτοί οι πίνακες ορίζονται από τον τρόπο αποθήκευσης των δεδομένων. Τα δεδομένα αποθηκεύονται σε αντικείμενα βάσης δεδομένων που ονομάζονται πίνακες - οργανώνονται σε σειρές και στήλες. Τα RDBMS ακολουθούν μια συνεπή προσέγγιση με τον τρόπο που τα δεδομένα αποθηκεύονται και ανακτώνται.

Για να έχετε την πιο επιχειρηματική αξία από την ανάλυση σε πραγματικό χρόνο των αδόμητων δεδομένων, πρέπει να κατανοήσετε τα δεδομένα σε συνάρτηση με τα ιστορικά δεδομένα σας σχετικά με τους πελάτες, τα προϊόντα, τις συναλλαγές και τις λειτουργίες. Με άλλα λόγια, θα πρέπει να ενσωματώσετε τα μη δομημένα δεδομένα σας με τα παραδοσιακά λειτουργικά σας δεδομένα.

Τα βασικά στοιχεία της μεγάλης υποδομής δεδομένων

Τα μεγάλα δεδομένα αφορούν την υψηλή ταχύτητα, τους μεγάλους όγκους και την ευρεία ποικιλία δεδομένων, έτσι ώστε η υλική υποδομή να «δημιουργήσει ή να σπάσει» την υλοποίηση. Οι περισσότερες μεγάλες υλοποιήσεις δεδομένων πρέπει να είναι ιδιαίτερα διαθέσιμες, επομένως τα δίκτυα, οι διακομιστές και η φυσική αποθήκευση πρέπει να είναι ανθεκτικά και περιττά.

Η ελαστικότητα και ο πλεονασμός είναι αλληλένδετες. Μια υποδομή ή ένα σύστημα είναι ανθεκτικό σε αποτυχία ή αλλαγές όταν υπάρχουν επαρκείς πλεονασμένοι πόροι έτοιμοι να πηδήσουν σε δράση. Η ευελιξία βοηθά στην εξάλειψη μεμονωμένων σημείων αποτυχίας στην υποδομή σας. Για παράδειγμα, εάν υπάρχει μόνο μια σύνδεση δικτύου μεταξύ της επιχείρησής σας και του Internet, δεν έχετε πλεονασμό δικτύου και η υποδομή δεν είναι ανθεκτική σε σχέση με μια διακοπή δικτύου.

Σε μεγάλα κέντρα δεδομένων με απαιτήσεις συνέχειας της επιχείρησης, το μεγαλύτερο μέρος της πλεονασμού είναι στη θέση του και μπορεί να χρησιμοποιηθεί για τη δημιουργία ενός μεγάλου περιβάλλοντος δεδομένων. Σε νέες εφαρμογές, οι σχεδιαστές έχουν την ευθύνη να χαρτογραφήσουν την ανάπτυξη στις ανάγκες της επιχείρησης με βάση το κόστος και την απόδοση.

Hadoop: HDFS και MapReduce

Το Hadoop, ένα πλαίσιο λογισμικού ανοιχτού κώδικα, χρησιμοποιεί το HDFS (το Distributed File System Hadoop) και το MapReduce για να αναλύσει τα μεγάλα δεδομένα σχετικά με τα clusters του βασικού υλικού - κατανεμημένο υπολογιστικό περιβάλλον.

Το σύστημα κατανομής αρχείων Hadoop (HDFS) αναπτύχθηκε για να επιτρέπει στις εταιρείες να διαχειρίζονται πιο εύκολα τεράστιους όγκους δεδομένων με απλό και πραγματιστικό τρόπο. Ο Hadoop επιτρέπει τη διάσπαση μεγάλων προβλημάτων σε μικρότερα στοιχεία έτσι ώστε η ανάλυση να μπορεί να γίνει γρήγορα και οικονομικά αποδοτική. Το HDFS είναι μια ευέλικτη, ανθεκτική, συσπειρωμένη προσέγγιση για τη διαχείριση αρχείων σε ένα μεγάλο περιβάλλον δεδομένων.

Το HDFS δεν είναι ο τελικός προορισμός για αρχεία. Μάλλον πρόκειται για μια "υπηρεσία" δεδομένων που προσφέρει ένα μοναδικό σύνολο δυνατοτήτων που απαιτούνται όταν οι όγκοι δεδομένων και η ταχύτητα είναι υψηλές.

Το MapReduce είναι ένα πλαίσιο λογισμικού που επιτρέπει στους προγραμματιστές να γράφουν προγράμματα που μπορούν να επεξεργάζονται παράλληλα τεράστιες ποσότητες μη δομημένων δεδομένων σε μια κατανεμημένη ομάδα επεξεργαστών. Το MapReduce σχεδιάστηκε από την Google ως έναν τρόπο αποτελεσματικής εκτέλεσης ενός συνόλου λειτουργιών ενάντια σε μια μεγάλη ποσότητα δεδομένων σε λειτουργία παρτίδας.

Η συνιστώσα "χάρτη" διανέμει το πρόβλημα προγραμματισμού ή τις εργασίες σε ένα μεγάλο αριθμό συστημάτων και χειρίζεται την τοποθέτηση των εργασιών με τρόπο που εξισορροπεί το φορτίο και διαχειρίζεται την αποκατάσταση από αποτυχίες. Αφού ολοκληρωθεί ο κατανεμημένος υπολογισμός, μια άλλη λειτουργία που ονομάζεται "μείωση" συγκεντρώνει όλα τα στοιχεία πίσω από κοινού για να παράσχει ένα αποτέλεσμα. Ένα παράδειγμα της χρήσης του MapReduce θα ήταν να καθορίσετε πόσες σελίδες ενός βιβλίου είναι γραμμένες σε κάθε μία από τις 50 διαφορετικές γλώσσες.

Τοποθέτηση της βάσης για τη μεγάλη στρατηγική σας δεδομένων

Οι εταιρείες κολυμπούν σε μεγάλα δεδομένα. Το πρόβλημα είναι ότι συχνά δεν ξέρουν πώς να χρησιμοποιήσουν ρεαλιστικά αυτά τα δεδομένα για να είναι σε θέση να προβλέψουν το μέλλον, να εκτελέσουν σημαντικές επιχειρηματικές διαδικασίες ή απλά να αποκτήσουν νέες γνώσεις. Ο στόχος της μεγάλης στρατηγικής και του σχεδίου δεδομένων σας θα πρέπει να είναι να βρεθεί ένας ρεαλιστικός τρόπος για τη μόχλευση δεδομένων για πιο προβλέψιμα επιχειρηματικά αποτελέσματα.

Ξεκινήστε τη μεγάλη στρατηγική δεδομένων σας ξεκινώντας μια διαδικασία ανακάλυψης. Πρέπει να πάρετε μια λαβή σε ποια δεδομένα έχετε ήδη, πού είναι, ποιος το κατέχει και ελέγχει και πώς χρησιμοποιείται αυτή τη στιγμή. Για παράδειγμα, ποιες είναι οι πηγές δεδομένων τρίτου μέρους στις οποίες βασίζεται η εταιρεία σας; Αυτή η διαδικασία μπορεί να σας δώσει πολλές πληροφορίες:

Μπορείτε να καθορίσετε πόσες πηγές δεδομένων έχετε και πόση αλληλεπικάλυψη υπάρχει.

Μπορείτε να αναγνωρίσετε τα κενά στη γνώση σχετικά με αυτές τις πηγές δεδομένων.

Μπορεί να ανακαλύψετε ότι έχετε πολλά διπλά δεδομένα σε έναν τομέα της επιχείρησης και σχεδόν δεν υπάρχουν δεδομένα σε άλλη περιοχή.
Μπορεί να διαπιστώσετε ότι εξαρτάτε από δεδομένα τρίτων που δεν είναι τόσο ακριβή όσο θα έπρεπε.
Περάστε το χρόνο που χρειάζεστε για να κάνετε αυτή τη διαδικασία ανεύρεσης, διότι θα αποτελέσει το θεμέλιο για το σχεδιασμό και την εκτέλεση της στρατηγικής σας για μεγάλες πληροφορίες.