Βίντεο: iTrack: ένας φύλακας-άγγελος στο τσεπάκι 2025
Η κυψέλη είναι ένα στρώμα δεδομένων που αποθηκεύεται με βάση τα στοιχεία του Hadoop (HDFS και MapReduce) είναι πολύ χρήσιμο σε μεγάλα δεδομένα. Παρέχει στους χρήστες που γνωρίζουν SQL με μια απλή εφαρμογή SQL-lite που ονομάζεται HiveQL χωρίς να θυσιάζει την πρόσβαση μέσω των χαρτογράφων και των μειωτήρων. Με την κυψέλη, μπορείτε να αποκτήσετε το καλύτερο και των δύο κόσμων: πρόσβαση SQL σε δομημένα δεδομένα και εξελιγμένη ανάλυση δεδομένων με το MapReduce.
Σε αντίθεση με τις περισσότερες αποθήκες δεδομένων, η κυψέλη δεν έχει σχεδιαστεί για γρήγορες απαντήσεις σε ερωτήματα. Στην πραγματικότητα, τα ερωτήματα μπορεί να διαρκέσουν αρκετά λεπτά ή ακόμα και ώρες, ανάλογα με την πολυπλοκότητα. Ως αποτέλεσμα, η κυψέλη χρησιμοποιείται καλύτερα για εξόρυξη δεδομένων και βαθύτερα αναλυτικά στοιχεία που δεν απαιτούν συμπεριφορές σε πραγματικό χρόνο. Επειδή βασίζεται στο ίδρυμα Hadoop, είναι πολύ επεκτάσιμο, κλιμακωτό και ανθεκτικό, κάτι που δεν είναι η μέση αποθήκη δεδομένων.
Η κυψέλη χρησιμοποιεί τρεις μηχανισμούς για την οργάνωση δεδομένων:
-
Πίνακες: Οι πίνακες κυψελών είναι οι ίδιοι με τους πίνακες RDBMS που αποτελούνται από σειρές και στήλες. Επειδή η κυψέλη είναι στρωμένη στο Hadoop HDFS, οι πίνακες αντιστοιχίζονται σε καταλόγους στο σύστημα αρχείων. Επιπλέον, το Hive υποστηρίζει πίνακες αποθηκευμένους σε άλλα εγγενή συστήματα αρχείων.
-
Διαμερίσματα: Ένας πίνακας κυψελών μπορεί να υποστηρίξει ένα ή περισσότερα διαμερίσματα. Αυτά τα κατατμήματα χαρτογραφούνται σε υποκαταλόγους στο υποκείμενο σύστημα αρχείων και αντιπροσωπεύουν τη διανομή δεδομένων σε όλο τον πίνακα. Για παράδειγμα, εάν ένας πίνακας ονομάζεται autos, με τιμή κλειδιού 12345 και τιμή κατασκευής Ford, autos / kv = 12345 / Ford.
-
Κάδοι: Με τη σειρά τους, τα δεδομένα μπορούν να χωριστούν σε κουβάδες. Οι κάδοι αποθηκεύονται ως αρχεία στον κατάλογο κατατμήσεων στο υποκείμενο σύστημα αρχείων. Οι κάδοι βασίζονται στον κατακερματισμό μιας στήλης στον πίνακα. Στο προηγούμενο παράδειγμα, μπορεί να έχετε ένα κουβά που ονομάζεται Focus, που περιέχει όλα τα χαρακτηριστικά ενός αυτοκινήτου Ford Focus.
Τα μεταδεδομένα κυψέλης αποθηκεύονται εξωτερικά στο "metastore. "Το metastore είναι μια σχεσιακή βάση δεδομένων που περιέχει τις λεπτομερείς περιγραφές του σχήματος Hive, συμπεριλαμβανομένων των τύπων στηλών, ιδιοκτήτες, δεδομένα κλειδιού και τιμής, στατιστικά στοιχεία πίνακα κ.ο.κ. Το metastore είναι ικανό να συγχρονίζει δεδομένα καταλόγου με άλλες υπηρεσίες μεταδεδομένων στο οικοσύστημα Hadoop.
Η κυψέλη υποστηρίζει μια γλώσσα τύπου SQL που ονομάζεται HiveQL. Το HiveQL υποστηρίζει πολλά από τα πρωτόγονα SQL, όπως το select, join, aggregate, union all και ούτω καθεξής. Υποστηρίζει επίσης πολυδιάστατα ερωτήματα και ένθετα, μοιράζοντας τα δεδομένα εισόδου μέσα σε μία μόνο δήλωση HiveQL. Το HiveQL μπορεί να επεκταθεί για να υποστηρίξει τη συνάθροιση που έχει οριστεί από τον χρήστη, το μετασχηματισμό της στήλης και τα ενσωματωμένα σενάρια MapReduce.