Το φθηνό κόστος αποθήκευσης για τον Hadoop καθώς και η δυνατότητα διερεύνησης δεδομένων Hadoop με SQL καθιστά τον Hadoop τον πρωταρχικό προορισμό για αρχειακά δεδομένα. Αυτή η περίπτωση χρήσης έχει μικρή επίδραση στον οργανισμό σας, επειδή μπορείτε να αρχίσετε να δημιουργείτε τις ικανότητές σας Hadoop σε δεδομένα που δεν είναι αποθηκευμένα σε συστήματα κρίσιμης απόδοσης.
Επιπλέον, δεν χρειάζεται να εργάζεστε σκληρά για να αποκτήσετε τα δεδομένα. (Δεδομένου ότι τα αρχειοθετημένα δεδομένα αποθηκεύονται κανονικά σε συστήματα που έχουν χαμηλή χρήση, είναι πιο εύκολο να τα βγάλεις από τα δεδομένα που βρίσκονται στο "φως της δημοσιότητας" σε συστήματα ζωτικής σημασίας για την απόδοση, όπως οι αποθήκες δεδομένων.) Εάν χρησιμοποιείτε ήδη το Hadoop ως προσγείωση ζώνη, έχετε τα θεμέλια για το αρχείο σας! Απλά κρατάτε αυτό που θέλετε να αρχειοθετήσετε και διαγράψτε αυτό που δεν έχετε.
Εδώ, το στοιχείο αρχειοθέτησης συνδέει τη ζώνη προσγείωσης και την αποθήκη δεδομένων. Τα δεδομένα που αρχειοθετούνται προέρχονται από την αποθήκη και στη συνέχεια αποθηκεύονται στο σύμπλεγμα Hadoop, το οποίο παρέχει επίσης τη ζώνη προσγείωσης. Εν ολίγοις, μπορείτε να χρησιμοποιήσετε το ίδιο σύμπλεγμα Hadoop για να αρχειοθετήσετε δεδομένα και να ενεργήσετε ως ζώνη προσγείωσής σας.Μπορείτε, φυσικά, να μετατρέψετε τα δεδομένα από τις δομές της αποθήκης σε κάποια άλλη μορφή (για παράδειγμα, μια κανονικοποιημένη μορφή για να μειώσετε την απόλυση), αλλά αυτό δεν είναι γενικά μια καλή ιδέα. Η διατήρηση των δεδομένων στην ίδια δομή με αυτά που υπάρχουν στην αποθήκη θα κάνει πολύ πιο εύκολη την εκτέλεση ενός πλήρους ερωτήματος για σύνολα δεδομένων σε όλα τα αρχειοθετημένα δεδομένα του Hadoop και τα ενεργά δεδομένα που υπάρχουν στην αποθήκη.
Η έννοια του ερωτήματος τόσο για τα ενεργά όσο και για τα αρχειοθετημένα σύνολα δεδομένων προκαλεί μια άλλη σκέψη: πόσα δεδομένα πρέπει να αρχειοθετήσετε; Υπάρχουν δύο κοινές επιλογές: αρχειοθετήστε τα πάντα καθώς τα δεδομένα προστίθενται και αλλάζουν στην αποθήκη δεδομένων ή αρχειοθετήστε μόνο τα δεδομένα που θεωρείτε κρύα.
Η αρχειοθέτηση όλων έχει το πλεονέκτημα ότι σας δίνει τη δυνατότητα να εκτυπώνετε εύκολα ερωτήματα από μια ενιαία διεπαφή σε ολόκληρο το σύνολο δεδομένων - χωρίς πλήρη αρχειοθέτηση, θα πρέπει να υπολογίσετε μια ομοσπονδιακή λύση ερωτήματος όπου θα πρέπει να ενώσετε τα αποτελέσματα από το αρχείο και την ενεργή αποθήκη δεδομένων.Αλλά το μειονέκτημα εδώ είναι ότι οι τακτικές ενημερώσεις των θερμών δεδομένων της αποθήκης δεδομένων σας θα προκαλέσουν πονοκεφάλους για το αρχείο Hadoop. Αυτό οφείλεται στο γεγονός ότι οποιεσδήποτε αλλαγές στα δεδομένα σε μεμονωμένες σειρές και στήλες απαιτούν χονδρική διαγραφή και επανακατάταξη των υφιστάμενων συνόλων δεδομένων.
Τώρα που τα αρχειακά δεδομένα αποθηκεύονται στη ζώνη προσγείωσης που βασίζεται στο Hadoop (υποθέτοντας ότι χρησιμοποιείτε μια επιλογή όπως τα αρχεία συμπιεσμένων αρχείων Hive που αναφέρθηκαν προηγουμένως), μπορείτε να την κάνετε ερώτηση. Αυτό είναι όπου το SQL σχετικά με τις λύσεις Hadoop μπορεί να γίνει ενδιαφέρουσα.
Ένα εξαιρετικό παράδειγμα του τι είναι δυνατό είναι για τα εργαλεία ανάλυσης (στα δεξιά στο σχήμα) να εκτελούνται άμεσα αναφορές ή αναλύσεις στα αρχειοθετημένα δεδομένα που αποθηκεύονται στο Hadoop. Αυτό δεν πρόκειται να αντικαταστήσει την αποθήκη δεδομένων - τελικά, ο Hadoop δεν θα ήταν σε θέση να ταιριάξει με τα χαρακτηριστικά απόδοσης της αποθήκης για την υποστήριξη εκατοντάδων ή περισσότερων ταυτόχρονων χρηστών που έθεταν σύνθετες ερωτήσεις.
Το σημείο εδώ είναι ότι μπορείτε να χρησιμοποιήσετε εργαλεία αναφοράς ενάντια στον Hadoop για να πειραματιστείτε και να βρείτε νέες ερωτήσεις για να απαντήσετε σε μια ειδική αποθήκη ή mart.
Όταν ξεκινάτε το πρώτο έργο που βασίζεται σε Hadoop για την αρχειοθέτηση δεδομένων αποθήκης, μην σπάστε τις τρέχουσες διαδικασίες μέχρι να τις δοκιμάσετε πλήρως στη νέα σας λύση Hadoop. Με άλλα λόγια, εάν η τρέχουσα στρατηγική αποθήκευσης σας είναι να αρχειοθετήσετε στην κασέτα, διατηρήστε αυτή τη διαδικασία στη θέση της και διπλής αρχειοθέτησης των δεδομένων σε Hadoop και ταινία μέχρι να δοκιμάσετε πλήρως το σενάριο (το οποίο συνήθως περιλαμβάνει την αποκατάσταση των δεδομένων αποθήκης σε περίπτωση αποτυχίας αποθήκης).
Παρόλο που διατηρείτε (βραχυπρόθεσμα) δύο αποθήκες αρχείων, θα έχετε μια ισχυρή υποδομή στη θέση σας και θα δοκιμάσετε προτού να παροπλιστεί μια δοκιμασμένη και αληθινή διαδικασία. Αυτή η διαδικασία μπορεί να διασφαλίσει ότι παραμένετε εργαζόμενοι - με τον τρέχοντα εργοδότη σας.
Αυτή η περίπτωση χρήσης είναι απλή επειδή δεν υπάρχει καμία αλλαγή στην υπάρχουσα αποθήκη. Ο επιχειρηματικός στόχος είναι ακόμα ο ίδιος: φθηνότερα κόστη αποθήκευσης και αδειοδότησης μεταφέροντας σπάνια δεδομένα σε αρχεία. Η διαφορά σε αυτή την περίπτωση είναι ότι η τεχνολογία πίσω από το αρχείο είναι Hadoop αντί για αποθήκευση εκτός σύνδεσης, όπως ταινία.
Επιπλέον, διάφοροι πωλητές αρχείων έχουν αρχίσει να ενσωματώνουν τον Hadoop στις λύσεις τους (για παράδειγμα, επιτρέποντας στα αρχεία αρχείων τους να διαμένουν σε HDFS), οπότε αναμένετε ότι οι δυνατότητες σε αυτόν τον τομέα θα επεκταθούν σύντομα.
Καθώς αναπτύσσετε δεξιότητες Hadoop (όπως την ανταλλαγή δεδομένων μεταξύ Hadoop και σχεσιακών βάσεων δεδομένων και την αναζήτηση δεδομένων σε HDFS), μπορείτε να τα χρησιμοποιήσετε για την αντιμετώπιση μεγαλύτερων προβλημάτων, όπως είναι τα έργα ανάλυσης, τα οποία θα μπορούσαν να προσφέρουν πρόσθετη αξία για την επένδυση Hadoop του οργανισμού σας.