Βίντεο: How to Install Hadoop on Windows 2024
Πολλές μελέτες δείχνουν ότι τα περισσότερα δεδομένα σε αποθήκη δεδομένων επιχειρήσεων σπανίως διερωτώνται. Οι προμηθευτές βάσης δεδομένων έχουν απαντήσει σε τέτοιες παρατηρήσεις εφαρμόζοντας τις δικές τους μεθόδους για να διαχωρίσουν τα στοιχεία που τοποθετούνται εκεί.
Μια μέθοδος δίνει εντολή στο σύμπλεγμα δεδομένων σε ονομασίες ζεστού, ζεστού ή κρύου, όπου τα ζεστά δεδομένα μερικές φορές ονομάζονται δεδομένα ενεργά ), χρησιμοποιούνται συχνά δεδομένα ζεστά και σπάνια χρησιμοποιούνται δεδομένα κρύα . για να αποθηκεύσετε τα κρύα δεδομένα σε βραδύτερους δίσκους μέσα στα περιβλήματα αποθήκης δεδομένων ή για να δημιουργήσετε έξυπνες στρατηγικές προσωρινής αποθήκευσης για να διατηρήσετε τα ζεστά δεδομένα στην μνήμη, μεταξύ άλλων.
Το πρόβλημα με αυτή την προσέγγιση είναι ότι ακόμα και αν χρησιμοποιείται πιο αργή αποθήκευση, εξακολουθεί να είναι δαπανηρή η αποθήκευση κρύων, σπάνια χρησιμοποιούμενων δεδομένων σε μια αποθήκη. αδειοδότηση υλικού και λογισμικού. Ταυτόχρονα, τα κρύα και αδρανή δεδομένα αρχειοθετούνται συχνά στην κασέτα.
Αυτό το παραδοσιακό μοντέλο αρχειοθέτησης δεδομένων διασπάται όταν θέλετε να αναζητήσετε όλα τα κρύα δεδομένα με οικονομικά αποδοτικό και σχετικά αποτελεσματικό τρόπο - χωρίς να χρειάζεται να ζητήσετε παλιές ταινίες, με άλλα λόγια.
Αν κοιτάξετε το κόστος και τα λειτουργικά χαρακτηριστικά του Hadoop, μάλιστα φαίνεται ότι έχει οριστεί να γίνει η νέα εφεδρική ταινία. Hadoop είναι φθηνές κυρίως επειδή τα συστήματα Hadoop έχουν σχεδιαστεί για να χρησιμοποιούν χαμηλότερου βαθμού υλικό από αυτά που συνήθως αναπτύσσονται σε συστήματα αποθήκης δεδομένων. Μια άλλη σημαντική εξοικονόμηση κόστους είναι η αδειοδότηση λογισμικού.
Οι εμπορικές άδειες διανομής Hadoop απαιτούν ένα κλάσμα του κόστους των άδειων λογισμικού αποθήκης σχεσιακών δεδομένων, οι οποίες είναι πασίγνωστες επειδή είναι δαπανηρές. Από επιχειρησιακή άποψη, ο Hadoop έχει σχεδιαστεί για να προσαρμόζεται εύκολα, προσθέτοντας επιπλέον κόμβους υποτελούς σε ένα υπάρχον σύμπλεγμα. Και καθώς οι κόμβοι σκλάβων προστίθενται και τα σύνολα δεδομένων αυξάνονται σε όγκο, τα πλαίσια επεξεργασίας δεδομένων της Hadoop επιτρέπουν στις εφαρμογές σας να χειρίζονται άψογα το αυξημένο φόρτο εργασίας.
Hadoop αντιπροσωπεύει έναν απλό, ευέλικτο και φθηνό τρόπο για να προωθήσει την επεξεργασία σε κυριολεκτικά χιλιάδες servers.
Με την κλιμακωτή και φθηνή αρχιτεκτονική του, ο Hadoop φαίνεται να είναι μια τέλεια επιλογή για την αρχειοθέτηση των δεδομένων αποθήκης … εκτός από μια μικρή υπόθεση: Το μεγαλύτερο μέρος του κόσμου της πληροφορικής λειτουργεί με SQL, και η SQL από μόνη της δεν παίζει καλά με τον Hadoop.
Σίγουρα, το πιο φιλικό προς το Hadoop σύστημα NoSQL είναι ζωντανό και καλά, αλλά οι περισσότεροι χρήστες ενέργειας χρησιμοποιούν πλέον την SQL μέσω κοινών εργαλείων που παράγουν ερωτήματα SQL κάτω από την κουκούλα - προϊόντα όπως Tableau, Microsoft Excel, και το IBM Cognos BI.
Είναι αλήθεια ότι το οικοσύστημα Hadoop περιλαμβάνει την κυψέλη, αλλά η κυψέλη υποστηρίζει μόνο ένα υποσύνολο SQL και παρόλο που η απόδοση βελτιώνεται (μαζί με την υποστήριξη SQL), δεν είναι τόσο γρήγορη η απάντηση σε μικρότερα ερωτήματα ως σχεσιακά συστήματα. Πρόσφατα, σημειώθηκε σημαντική πρόοδος όσον αφορά την πρόσβαση SQL στον Hadoop, η οποία άνοιξε το δρόμο για τον Hadoop να γίνει ο νέος προορισμός για ηλεκτρονικά αρχεία αποθήκης δεδομένων.
Ανάλογα με τον προμηθευτή Hadoop, τα API SQL (ή SQL-like) καθίστανται διαθέσιμα έτσι ώστε τα πιο συνηθισμένα εργαλεία αναφορών και αναλυτικών στοιχείων να μπορούν να εκτυπώνουν άψογα το SQL που εκτελείται σε δεδομένα αποθηκευμένα σε Hadoop. Για παράδειγμα, η IBM έχει το API Big SQL, η Cloudera έχει την Impala και η ίδια η κυψέλη, μέσω της πρωτοβουλίας Hortonworks Stinger, γίνεται όλο και περισσότερο συμβατή με την SQL.
Παρόλο που υπάρχουν διάφορες απόψεις (μερικοί αποσκοπούν στην ενίσχυση της κυψέλης, μερικοί για να επεκτείνουν την κυψέλη και άλλοι για να παράσχουν μια εναλλακτική λύση), όλες αυτές οι λύσεις προσπαθούν να αντιμετωπίσουν δύο ζητήματα: MapReduce είναι μια κακή λύση για την εκτέλεση μικρότερων ερωτημάτων, και η πρόσβαση SQL είναι - για τώρα - το κλειδί που επιτρέπει στους εργαζόμενους στον τομέα των τεχνολογιών πληροφορικής να χρησιμοποιούν τις υπάρχουσες δεξιότητές τους SQL για να αποκτήσουν αξία από τα δεδομένα που είναι αποθηκευμένα στο Hadoop.