Βίντεο: Προσγείωση στην Αθήνα 2024
Όταν προσπαθείτε να παγιδέψετε ποιο είναι το περιβάλλον ανάλυσης μπορεί να μοιάζει με το μέλλον, σκοντάφτετε το μοτίβο της ζώνης προσγείωσης με βάση το Hadoop ξανά και ξανά. Στην πραγματικότητα, δεν είναι πλέον ούτε μια συζήτηση προσανατολισμένη στο μέλλον, επειδή η ζώνη προσγείωσης έχει γίνει ο τρόπος με τον οποίο οι εταιρίες με προοδευτικές προοπτικές προσπαθούν τώρα να εξοικονομήσουν το κόστος πληροφορικής και παρέχουν μια πλατφόρμα για καινοτόμο ανάλυση δεδομένων. Ποια ακριβώς είναι η ζώνη προσγείωσης; Στο πιο βασικό επίπεδο, η
ζώνη προσγείωσης είναι απλώς ο κεντρικός τόπος όπου τα δεδομένα θα προσγειώνονται στην επιχείρησή σας - εβδομαδιαίες εκροές δεδομένων από λειτουργικές βάσεις δεδομένων, για παράδειγμα, ή από συστήματα που δημιουργούν αρχεία καταγραφής. Το Hadoop είναι ένα χρήσιμο αποθετήριο για την εκφόρτωση δεδομένων, για τους εξής λόγους:
-
Είναι εύκολο να επεκταθεί.
-
Είναι φθηνό.
-
Μόλις προσπελάσετε δεδομένα στο Hadoop, έχετε την ευελιξία να διερευνήσετε, να αναλύσετε ή να επεξεργαστείτε τα δεδομένα με διάφορους τρόπους.
-
Αυτό το διάγραμμα δείχνει μόνο μέρος της ιστορίας και δεν είναι καθόλου ολοκληρωμένο. Μετά από όλα, πρέπει να ξέρετε πώς μετακινούνται τα δεδομένα από τη ζώνη προσγείωσης στην αποθήκη δεδομένων και ούτω καθεξής.
Στη δεκαετία του 1980, όταν οι οργανώσεις άρχισαν να αποθηκεύουν τις επιχειρησιακές τους πληροφορίες σε σχεσιακές βάσεις δεδομένων (π.χ. συναλλαγές πωλήσεων ή καταστάσεις αλυσίδας εφοδιασμού), οι ηγέτες των επιχειρήσεων άρχισαν να θέλουν τις αναφορές που προκύπτουν από αυτά τα σχεσιακά δεδομένα. Τα πρώτα συσχετιστικά καταστήματα ήταν επιχειρησιακές βάσεις δεδομένων και σχεδιάστηκαν για την Επεξεργασία Ηλεκτρονικών Συναλλαγών (OLTP), έτσι ώστε οι εγγραφές να μπορούν να εισάγονται, να ενημερώνονται ή να διαγράφονται όσο το δυνατόν γρηγορότερα.
Αυτή είναι μια μη πρακτική αρχιτεκτονική για αναφορές και αναλύσεις μεγάλης κλίμακας, έτσι ώστε οι βάσεις δεδομένων Relational Online Analytical Processing (ROLAP) αναπτύχθηκαν για να καλύψουν αυτή την ανάγκη. Αυτό οδήγησε στην εξέλιξη ενός εντελώς νέου τύπου RDBMS: μια αποθήκη δεδομένων
,η οποία είναι μια ξεχωριστή οντότητα και ζει μαζί με τα αποθηκευτικά δεδομένα επιχειρησιακών δεδομένων ενός οργανισμού. Αυτό συμβαίνει με τη χρήση εργαλείων που έχουν κατασκευαστεί ειδικά για μεγαλύτερη αποτελεσματικότητα: έχετε λειτουργικά καταστήματα δεδομένων τα οποία έχουν σχεδιαστεί για την αποτελεσματική επεξεργασία συναλλαγών και αποθήκες δεδομένων, τα οποία έχουν σχεδιαστεί για να υποστηρίζουν την επαναλαμβανόμενη ανάλυση και αναφορά. Οι αποθήκες δεδομένων παρουσιάζουν ολοένα αυξανόμενο άγχος, για τους εξής λόγους:
Αυξημένη ζήτηση για διατήρηση σε μεγαλύτερο χρονικό διάστημα των δεδομένων σε απευθείας σύνδεση.
Αυξημένη ζήτηση για επεξεργασία πόρων για τη μετατροπή δεδομένων για χρήση σε άλλες αποθήκες και marts δεδομένων.
-
Η αυξημένη ζήτηση καινοτόμων αναλύσεων, που απαιτεί από τους αναλυτές να θέτουν ερωτήματα σχετικά με τα δεδομένα αποθήκης, πέρα από τις τακτικές αναφορές που γίνονται ήδη. Αυτό μπορεί να επιφέρει σημαντική πρόσθετη επεξεργασία.
-
Στο σχήμα, μπορείτε να δείτε την αποθήκη δεδομένων που παρουσιάζεται ως ο κύριος πόρος για τα διάφορα είδη ανάλυσης που αναφέρονται στην άκρα δεξιά πλευρά του σχήματος. Εδώ βλέπετε επίσης την έννοια της εκπροσωπούμενης ζώνης προσγείωσης, όπου η Hadoop θα αποθηκεύει δεδομένα από μια ποικιλία εισερχόμενων πηγών δεδομένων.
-
Για να ενεργοποιήσετε μια ζώνη προσγείωσης Hadoop, θα πρέπει να βεβαιωθείτε ότι μπορείτε να γράψετε δεδομένα από τις διάφορες πηγές δεδομένων σε HDFS. Για τις σχεσιακές βάσεις δεδομένων, μια καλή λύση θα ήταν να χρησιμοποιήσετε το Sqoop.
Αλλά η προσγείωση των δεδομένων είναι μόνο η αρχή.
Όταν μετακινείτε δεδομένα από πολλές πηγές στη ζώνη προσγείωσής σας, ένα πρόβλημα με το οποίο θα συναντήσετε αναπόφευκτα είναι η ποιότητα των δεδομένων. Είναι κοινό για τις εταιρείες να έχουν πολλές λειτουργικές βάσεις δεδομένων όπου οι βασικές λεπτομέρειες είναι διαφορετικές, για παράδειγμα, ότι ένας πελάτης μπορεί να είναι γνωστός ως "D. deRoos "σε μια βάση δεδομένων, και" Dirk deRoos "σε μια άλλη.
Ένα άλλο πρόβλημα ποιότητας έγκειται στα συστήματα όπου υπάρχει μεγάλη εμπιστοσύνη στη μη αυτόματη εισαγωγή δεδομένων, είτε από τους πελάτες είτε από το προσωπικό - εδώ δεν είναι ασυνήθιστο να βρεθούν τα ονόματα και τα επώνυμα που έχουν αλλάξει ή κάποια άλλη παραπληροφόρηση στα πεδία δεδομένων.
Τα ζητήματα ποιότητας δεδομένων είναι μεγάλη υπόθεση για περιβάλλοντα αποθήκης δεδομένων και γι 'αυτό πολλές προσπάθειες πηγαίνουν σε βήματα καθαρισμού και επικύρωσης καθώς τα δεδομένα από άλλα συστήματα επεξεργάζονται καθώς φορτώνονται στην αποθήκη. Όλα έρχονται σε
εμπιστοσύνη
: εάν τα δεδομένα που υποβάλλετε ερωτήσεις είναι βρώμικα, δεν μπορείτε να εμπιστευτείτε τις απαντήσεις στις αναφορές σας. Έτσι, ενώ υπάρχει τεράστιο δυναμικό να έχετε πρόσβαση σε πολλά διαφορετικά σύνολα δεδομένων από διαφορετικές πηγές στη ζώνη προσγείωσής σας στο Hadoop, πρέπει να υπολογίσετε την ποιότητα των δεδομένων και πόσο μπορείτε να εμπιστευτείτε τα δεδομένα.