Βίντεο: Technology Stacks - Computer Science for Business Leaders 2016 2024
Μια από τις πρώτες περιπτώσεις χρήσης για τον Hadoop στην επιχείρηση ήταν ως προγραμματιστικός κινητήρας μετασχηματισμού που χρησιμοποιείται για την προεπεξεργασία δεδομένων που προορίζονται για μια αποθήκη δεδομένων. Ουσιαστικά, αυτή η περίπτωση χρήσης εκμεταλλεύεται τη δύναμη του οικοσυστήματος Hadoop για να χειριστεί και να εφαρμόσει μετασχηματισμούς σε δεδομένα πριν από φορτωθεί σε μια αποθήκη δεδομένων.
Αν και ο πραγματικός κινητήρας μετασχηματισμού είναι νέος (είναι Hadoop, έτσι οι μετασχηματισμοί και οι ροές δεδομένων κωδικοποιούνται στο Pig ή MapReduce, μεταξύ άλλων γλωσσών), η ίδια η προσέγγιση χρησιμοποιήθηκε για λίγο με τις διεργασίες Extract, Transform, Load (ETL).
Σκεφτείτε την εξέλιξη των βάσεων δεδομένων OLTP και ROLAP. Πολλές οργανώσεις με επιχειρησιακές βάσεις δεδομένων χρησιμοποίησαν επίσης αποθήκες δεδομένων. Πώς λοιπόν τα τμήματα πληροφορικής αποκτούν δεδομένα από τις επιχειρησιακές τους βάσεις δεδομένων στις αποθήκες τους; (Να θυμάστε ότι τα επιχειρησιακά δεδομένα συνήθως δεν είναι σε μορφή που να προσφέρεται για ανάλυση.)
Η απάντηση εδώ είναι η ETL και καθώς οι αποθήκες δεδομένων αυξήθηκαν κατά τη χρήση και τη σημασία, τα βήματα στη διαδικασία έγιναν καλά κατανοητά και οι βέλτιστες πρακτικές ήταν αναπτηγμένος. Επίσης, αρκετές εταιρείες λογισμικού άρχισαν να προσφέρουν ενδιαφέρουσες λύσεις ETL έτσι ώστε τα τμήματα πληροφορικής να μπορούν να ελαχιστοποιήσουν τη δική τους προσαρμοσμένη ανάπτυξη κώδικα.
E xtract δεδομένα από μια επιχειρησιακή βάση δεδομένων, T τη μετατρέπετε στη μορφή που χρειάζεστε για την ανάλυσή σας και τα εργαλεία αναφοράς και στη συνέχεια L τα δεδομένα αυτά αποθηκεύονται στην αποθήκη δεδομένων σας. Μια κοινή παραλλαγή του ETL είναι το ELT - Extract, Load, and Transform. Στη διαδικασία ELT, πραγματοποιείτε μετασχηματισμούς (σε αντίθεση με ETL)μετά την φόρτωση των δεδομένων στο αποθετήριο στόχων. Αυτή η προσέγγιση χρησιμοποιείται συχνά όταν ο μετασχηματισμός βρίσκεται σε μεγάλο βαθμό από μια πολύ γρήγορη μηχανή επεξεργασίας SQL σε δομημένα δεδομένα. (Οι σχεσιακές βάσεις δεδομένων μπορεί να μην υπερέχουν στην επεξεργασία των μη δομημένων δεδομένων, αλλά εκτελούν πολύ γρήγορη επεξεργασία - μάντεψε τι; - δομημένα δεδομένα.) Με το Hadoop να μπορεί πλέον να επεξεργάζεται ερωτήματα SQL, μπορούν να φιλοξενηθούν φορτία εργασίας ETL και ELT στον Hadoop. Το σχήμα δείχνει τις υπηρεσίες ETL που προστέθηκαν στην αρχιτεκτονική αναφοράς.
Αν έχετε αναπτύξει μια ζώνη προσγείωσης με βάση το Hadoop, έχετε σχεδόν όλα όσα χρειάζεστε για να χρησιμοποιήσετε τον Hadoop ως κινητήρα μετασχηματισμού.Έχετε ήδη εκφορτώσει δεδομένα από τα επιχειρησιακά σας συστήματα σε Hadoop χρησιμοποιώντας το Sqoop, το οποίο καλύπτει το βήμα εξαγωγής. Σε αυτό το σημείο θα χρειαστεί να εφαρμόσετε τη λογική μετασχηματισμού σας σε εφαρμογές MapReduce ή Pig. Αφού μετασχηματιστούν τα δεδομένα, μπορείτε να φορτώσετε τα δεδομένα στην αποθήκη δεδομένων χρησιμοποιώντας το Sqoop.
Η χρήση του Hadoop ως μηχανισμού μετασχηματισμού δεδομένων αυξάνει επίσης τις δυνατότητες. Εάν η αποθήκη δεδομένων σας δεν τροποποιεί τα δεδομένα της (είναι μόνο για αναφορά), μπορείτε απλά να διατηρήσετε τα δεδομένα που δημιουργείτε με τη διαδικασία μετασχηματισμού. Σε αυτό το μοντέλο, τα δεδομένα ρέουν μόνο από αριστερά προς δεξιά στο σχήμα, όπου τα δεδομένα εξάγονται από επιχειρησιακές βάσεις δεδομένων, μετασχηματίζονται στη ζώνη προσγείωσης και στη συνέχεια φορτώνονται στην αποθήκη δεδομένων.
Με όλα τα μετασχηματισμένα δεδομένα που βρίσκονται ήδη στη ζώνη προσγείωσης, δεν χρειάζεται να τα αντιγράψουμε ξανά στον Hadoop - εκτός αν, βεβαίως, τα δεδομένα γίνονται τροποποιημένα στην αποθήκη.