Βίντεο: Data Analysts Tools - 5 Crucial Data Tools [2019] 2025
Η ιδέα των κινητήρων ETL που έχουν εμπνευστεί από τον Hadoop έχει κερδίσει πολλή έλξη τα τελευταία χρόνια. Μετά από όλα, η Hadoop είναι μια ευέλικτη πλατφόρμα αποθήκευσης και επεξεργασίας δεδομένων που μπορεί να υποστηρίξει τεράστια ποσά δεδομένων και λειτουργιών σε αυτά τα δεδομένα. Ταυτόχρονα, είναι ανεκτικό σε σφάλματα και προσφέρει την ευκαιρία για μειώσεις κόστους κεφαλαίου και λογισμικού.
Παρά τη δημοτικότητα του Hadoop ως κινητήρα ETL, ωστόσο, πολλοί λαοί (συμπεριλαμβανομένης μιας διάσημης εταιρείας αναλυτών) δεν συστήνουν τον Hadoop ως το μοναδικό κομμάτι της τεχνολογίας για τη στρατηγική σας ETL. Αυτό οφείλεται σε μεγάλο βαθμό στο γεγονός ότι η ανάπτυξη των ροών ETL απαιτεί μεγάλη πείρα σχετικά με τα υπάρχοντα συστήματα βάσεων δεδομένων του οργανισμού σας, τη φύση των δεδομένων και τις εκθέσεις και τις εφαρμογές που εξαρτώνται από αυτό.
Με άλλα λόγια, οι DBAs, οι προγραμματιστές και οι αρχιτέκτονες στο τμήμα πληροφορικής θα πρέπει να εξοικειωθούν αρκετά με τον Hadoop για την υλοποίηση των απαιτούμενων ροών ETL. Για παράδειγμα, μπορεί να είναι απαραίτητη μια πολύ εντατική κωδικοποίηση χεριών με το Pig, Hive ή ακόμη και MapReduce για να δημιουργήσετε ακόμα και τις απλούστερες ροές δεδομένων - που θέτει την επιχείρησή σας στο γάντζο για αυτές τις δεξιότητες αν ακολουθήσει αυτή τη διαδρομή.
Πρέπει να κωδικοποιήσετε στοιχεία όπως παράλληλη αποσφαλμάτωση, υπηρεσίες διαχείρισης εφαρμογών (όπως έλεγχος επισημάνσεως και σφάλμα και χειρισμός συμβάντων). Επίσης, σκεφτείτε τις επιχειρηματικές απαιτήσεις, όπως η γλωσσική φιλοσοφία και τη δυνατότητα προβολής της γενεαλογίας των δεδομένων σας.
Υπάρχουν ορισμένες απαιτήσεις κανονιστικών ρυθμίσεων για πολλές τυποποιημένες εκθέσεις βιομηχανίας, όπου απαιτείται καταγωγή των δεδομένων. ο οργανισμός αναφοράς πρέπει να είναι σε θέση να δείξει πού προέρχονται τα σημεία δεδομένων στην αναφορά, πώς τα δεδομένα έχουν φτάσει σε εσάς και τι έχει γίνει με τα δεδομένα.
Ακόμη και για συστήματα σχεσιακών βάσεων δεδομένων, το ETL είναι αρκετά σύνθετο ώστε να υπάρχουν δημοφιλή εξειδικευμένα προϊόντα που παρέχουν διεπαφές για τη διαχείριση και ανάπτυξη ροών ETL. Ορισμένα από αυτά τα προϊόντα βοηθούν τώρα στην ανάπτυξη με βάση το Hadoop ETL και άλλες βασισμένες στο Hadoop. Ωστόσο, ανάλογα με τις απαιτήσεις σας, ίσως χρειαστεί να γράψετε μερικά από τον δικό σας κώδικα για να υποστηρίξετε τη λογική μετασχηματισμού σας.
