Πίνακας περιεχομένων:
- Μεγάλα δεδομένα δεδομένων
- Αναλυτικοί αλγόριθμοι μεγάλου όγκου δεδομένων
- Υποστήριξη μεγάλης υποδομής δεδομένων
Βίντεο: Suspense: My Dear Niece / The Lucky Lady (East Coast and West Coast) 2024
Τα παραδοσιακά προϊόντα επιχειρηματικής ευφυΐας δεν σχεδιάστηκαν πραγματικά για να χειριστούν τα μεγάλα δεδομένα, επομένως ίσως χρειαστούν κάποιες τροποποιήσεις. Σχεδιάστηκαν για να λειτουργούν με πολύ δομημένα, καλά κατανοητά δεδομένα, συχνά αποθηκευμένα σε ένα χώρο αποθήκευσης σχεσιακών δεδομένων και εμφανίζονται στον επιτραπέζιο ή φορητό υπολογιστή σας. Αυτή η παραδοσιακή ανάλυση επιχειρηματικής ευφυΐας εφαρμόζεται συνήθως σε στιγμιότυπα δεδομένων αντί για το σύνολο των διαθέσιμων δεδομένων. Τι διαφέρει από τη μεγάλη ανάλυση δεδομένων;
Μεγάλα δεδομένα δεδομένων
Τα μεγάλα δεδομένα αποτελούνται από δομημένα, ημιδομημένα και αδόμητα δεδομένα. Συχνά έχετε πολλά και μπορεί να είναι πολύ περίπλοκο. Όταν σκέφτεστε να την αναλύσετε, πρέπει να γνωρίζετε τα πιθανά χαρακτηριστικά των δεδομένων σας:
-
Μπορεί να προέρχεται από μη αξιόπιστες πηγές. Η μεγάλη ανάλυση δεδομένων συχνά περιλαμβάνει τη συγκέντρωση δεδομένων από διάφορες πηγές. Αυτά μπορεί να περιλαμβάνουν τόσο εσωτερικές όσο και εξωτερικές πηγές δεδομένων. Πόσο αξιόπιστες είναι αυτές οι εξωτερικές πηγές πληροφοριών; Για παράδειγμα, πόσο αξιόπιστα είναι τα δεδομένα των κοινωνικών μέσων όπως ένα tweet; Οι πληροφορίες ενδέχεται να προέρχονται από μη επαληθευμένη πηγή. Η ακεραιότητα των δεδομένων αυτών πρέπει να ληφθεί υπόψη στην ανάλυση.
-
Μπορεί να είναι βρώμικο. Τα βρώμικα δεδομένα αναφέρονται σε ανακριβή, ελλιπή ή λανθασμένα δεδομένα. Αυτό μπορεί να περιλαμβάνει το ορθογραφικό λάθος των λέξεων. έναν αισθητήρα που έχει σπάσει, δεν έχει βαθμονομηθεί σωστά ή έχει αλλοιωθεί κατά κάποιον τρόπο. ή ακόμα και διπλότυπα δεδομένα. Οι επιστήμονες των δεδομένων συζητούν για το πού να καθαρίσουν τα δεδομένα - είτε κοντά στην πηγή είτε σε πραγματικό χρόνο.
Φυσικά, μια σχολή σκέψης λέει ότι τα βρώμικα δεδομένα δεν πρέπει να καθαρίζονται καθόλου γιατί μπορεί να περιέχουν ενδιαφέρουσες αποκλίσεις. Η στρατηγική καθαρισμού πιθανόν να εξαρτάται από την πηγή και τον τύπο των δεδομένων και τον στόχο της ανάλυσής σας. Για παράδειγμα, εάν αναπτύσσετε ένα φίλτρο ανεπιθύμητης αλληλογραφίας, ο στόχος είναι να εντοπίσετε τα κακά στοιχεία στα δεδομένα, επομένως δεν θέλετε να τα καθαρίσετε.
-
Ο λόγος σήματος προς θόρυβο μπορεί να είναι χαμηλός. Με άλλα λόγια, το σήμα (χρησιμοποιήσιμες πληροφορίες) μπορεί να είναι μόνο ένα μικρό ποσοστό των δεδομένων. ο θόρυβος είναι το υπόλοιπο. Η δυνατότητα εξαγωγής ενός μικροσκοπικού σήματος από θορυβώδη δεδομένα είναι μέρος του οφέλους των μεγάλων αναλυτικών στοιχείων, αλλά πρέπει να γνωρίζετε ότι το σήμα μπορεί πράγματι να είναι μικρό.
-
Μπορεί να είναι σε πραγματικό χρόνο. Σε πολλές περιπτώσεις, θα προσπαθήσετε να αναλύσετε ροές δεδομένων σε πραγματικό χρόνο.
Η μεγάλη διοίκηση δεδομένων πρόκειται να αποτελέσει σημαντικό μέρος της εξισώσεως των αναλύσεων. Κάτω από τις επιχειρησιακές αναλύσεις, θα πρέπει να γίνουν βελτιώσεις σε λύσεις διακυβέρνησης για να διασφαλιστεί η ειλικρίνεια που προέρχεται από τις νέες πηγές δεδομένων, ειδικά καθώς συνδυάζεται με τα υπάρχοντα αξιόπιστα δεδομένα που είναι αποθηκευμένα σε μια αποθήκη.Οι λύσεις ασφάλειας δεδομένων και απορρήτου πρέπει επίσης να ενισχυθούν για να υποστηρίξουν τη διαχείριση / διαχείριση μεγάλων δεδομένων που αποθηκεύονται μέσα στις νέες τεχνολογίες.
Αναλυτικοί αλγόριθμοι μεγάλου όγκου δεδομένων
Όταν εξετάζετε μεγάλες αναλύσεις δεδομένων, πρέπει να γνωρίζετε ότι όταν επεκτείνετε πέρα από την επιφάνεια εργασίας, οι αλγόριθμοι που χρησιμοποιείτε πρέπει συχνά να αναπροσαρμοστούν, εσωτερικού κώδικα χωρίς να επηρεάζει την εξωτερική του λειτουργία. Η ομορφιά μιας μεγάλης υποδομής δεδομένων είναι ότι μπορείτε να χρησιμοποιήσετε ένα μοντέλο που χρησιμοποιείται για να διαρκέσει ώρες ή ημέρες σε λεπτά.
Αυτό σας επιτρέπει να επαναλάβετε το μοντέλο εκατοντάδες φορές. Ωστόσο, εάν εκτελείτε μια παλινδρόμηση σε ένα εκατομμύριο σειρές δεδομένων σε ένα κατανεμημένο περιβάλλον, πρέπει να λάβετε υπόψη τις απαιτήσεις πόρων που σχετίζονται με τον όγκο των δεδομένων και τη θέση τους στο σύμπλεγμα. Οι αλγόριθμοί σας πρέπει να γνωρίζουν τα δεδομένα.
Επιπλέον, οι πωλητές αρχίζουν να προσφέρουν νέα αναλυτικά στοιχεία που έχουν σχεδιαστεί για να τοποθετούνται κοντά στις μεγάλες πηγές δεδομένων για να αναλύσουν τα δεδομένα στη θέση τους. Αυτή η προσέγγιση εκτέλεσης αναλυτικών στοιχείων πιο κοντά στις πηγές δεδομένων ελαχιστοποιεί την ποσότητα των αποθηκευμένων δεδομένων διατηρώντας μόνο τα δεδομένα υψηλής αξίας. Σας επιτρέπει επίσης να αναλύετε τα δεδομένα νωρίτερα, γεγονός που είναι κρίσιμο για τη λήψη αποφάσεων σε πραγματικό χρόνο.
Φυσικά, τα αναλυτικά στοιχεία θα συνεχίσουν να εξελίσσονται. Για παράδειγμα, μπορεί να χρειαστείτε δυνατότητες απεικόνισης σε πραγματικό χρόνο για να εμφανίσετε δεδομένα σε πραγματικό χρόνο τα οποία αλλάζουν συνεχώς. Πώς σχεδιάζετε πρακτικά ένα δισεκατομμύριο σημεία σε μια γραφική παράσταση γραφημάτων; Ή πώς συνεργάζεστε με τους αλγόριθμους πρόβλεψης, ώστε να εκτελούν αρκετά γρήγορα και αρκετά βαθιά ανάλυση για να χρησιμοποιήσουν ένα διαρκώς αναπτυσσόμενο, πολύπλοκο σύνολο δεδομένων; Αυτός είναι ένας τομέας ενεργητικής έρευνας.
Υποστήριξη μεγάλης υποδομής δεδομένων
Αρκεί να πούμε ότι αν ψάχνετε για μια πλατφόρμα, πρέπει να επιτύχετε τα εξής:
-
Ενσωμάτωση τεχνολογιών: Η υποδομή χρειάζεται να ενσωματώσει νέες μεγάλες τεχνολογίες δεδομένων παραδοσιακές τεχνολογίες ώστε να είναι σε θέση να επεξεργάζονται όλα τα είδη των μεγάλων δεδομένων και να το αναλώσουν μέσω των παραδοσιακών αναλυτικών στοιχείων.
-
Αποθηκεύστε μεγάλα ποσά διαφορετικών δεδομένων: Μπορεί να χρειαστεί ένα σύστημα Hadoop που έχει σκληρύνει την επιχείρηση, το οποίο μπορεί να επεξεργάζεται / αποθηκεύει / διαχειρίζεται μεγάλες ποσότητες δεδομένων σε ηρεμία, είτε είναι δομημένο, ημι-δομημένο ή αδόμητο.
-
Δεδομένα διεργασίας σε κίνηση: Για την επεξεργασία δεδομένων σε κίνηση που παράγονται συνεχώς από αισθητήρες, έξυπνες συσκευές, βίντεο, ήχο και αρχεία καταγραφής για τη λήψη αποφάσεων σε πραγματικό χρόνο, μπορεί να χρειαστεί μια ικανότητα ροής.
-
Δεδομένα αποθήκης: Μπορεί να χρειαστείτε μια λύση βελτιστοποιημένη για επιχειρησιακά ή βαθιά αναλυτικά φόρματα εργασίας για την αποθήκευση και διαχείριση των αυξανόμενων ποσοτήτων αξιόπιστων δεδομένων.
Και φυσικά, χρειάζεστε τη δυνατότητα να ενσωματώσετε τα δεδομένα που έχετε ήδη στη διάθεσή σας μαζί με τα αποτελέσματα της μεγάλης ανάλυσης δεδομένων.