Βίντεο: Σωστό REST API & Documentation #51, live 2024
Ορισμένες εταιρείες επενδύουν σε μεγάλο βαθμό σε προγράμματα ανοιχτού κώδικα και σε ιδιόκτητες λύσεις για πρόσβαση SQL σε δεδομένα Hadoop. Όταν ακούτε τον όρο πρόσβαση SQL, πρέπει να γνωρίζετε ότι βασίζεστε σε μερικές βασικές υποθέσεις:
-
Πρότυπα γλώσσας: Το πιο σημαντικό πρότυπο, φυσικά, συνεπάγεται την ίδια τη γλώσσα. Υπάρχουν πολλές λύσεις τύπου "SQL", αν και συνήθως δεν μετρούνται με ορισμένους θεμελιώδεις τρόπους - τρόπους που θα απέτρεπαν να λειτουργούν ακόμη και τυπικές δηλώσεις SQL.
Προγράμματα οδήγησης: -
Ένα άλλο βασικό στοιχείο σε μια λύση πρόσβασης SQL είναι το πρόγραμμα οδήγησης - η διεπαφή για εφαρμογές σύνδεσης και ανταλλαγής δεδομένων με το χώρο αποθήκευσης δεδομένων. Χωρίς οδηγό, δεν υπάρχει διεπαφή SQL για οποιεσδήποτε εφαρμογές ή εργαλεία πελάτη για σύνδεση για την υποβολή ερωτημάτων SQL. Πρόσβαση σε πραγματικό χρόνο:
Μέχρι την έκδοση Hadoop 2, η εκτέλεση βάσει MapReduce ήταν η μόνη διαθέσιμη επιλογή για αναλυτικά στοιχεία σε σχέση με τα δεδομένα που αποθηκεύονται στο Hadoop. Για σχετικά απλά ερωτήματα που περιλαμβάνουν πλήρη σάρωση δεδομένων σε έναν πίνακα, ο Hadoop ήταν αρκετά γρήγορος σε σύγκριση με μια παραδοσιακή σχεσιακή βάση δεδομένων.
-
μπορεί να σημαίνει ώρες, ανάλογα με την ποσότητα των δεδομένων. Αλλά όταν ήρθε σε πιο περίπλοκα ερωτήματα, με τη συμμετοχή υποσυνόλων δεδομένων, ο Hadoop δεν έκανε καλά. Το MapReduce είναι ένα πλαίσιο επεξεργασίας παρτίδας, οπότε η επίτευξη υψηλών επιδόσεων σε ερωτήματα σε πραγματικό χρόνο πριν από το Hadoop 2 ήταν αρχιτεκτονικά αδύνατο. Ένα πρώιμο κίνητρο για το YARN, το νέο σύστημα διαχείρισης πόρων και προγραμματισμού στο μπλοκ, ήταν αυτή η ανάγκη υποστήριξης άλλων πλαισίων επεξεργασίας για την ενεργοποίηση φόρτων εργασίας σε πραγματικό χρόνο, όπως ερωτήσεις αλληλεπίδρασης SQL. Πράγματι, μια σωστή λύση SQL δεν πρέπει να αφήνει τους ανθρώπους να περιμένουν εύλογα ερωτήματα. Μεταβλητά δεδομένα:
Μια κοινή ερώτηση σε πολλές συζητήσεις σχετικά με την υποστήριξη SQL για τον Hadoop είναι "Μπορούμε να χρησιμοποιήσουμε, και δηλώσεις, όπως θα μπορούσαμε να κάνουμε σε μια τυπική σχεσιακή βάση δεδομένων; "Προς το παρόν, η απάντηση είναι όχι, η οποία αντανακλά τη φύση των HDFS - εστιάζεται σε μεγάλα, αμετάβλητα αρχεία.Οι τεχνολογίες όπως η κυψέλη προσφέρουν πρόσβαση μόνο σε ανάγνωση σε αυτά τα αρχεία. Ανεξαρτήτως, η εργασία συνεχίζεται στο πρόγραμμα Hive Apache.
-