Βίντεο: 12 Ερωτήματα με ομαδοποίηση σε πολλούς πίνακες 2024
Οι βάσεις δεδομένων NoSQL ταιριάζουν πολύ με πολύ μεγάλα σύνολα δεδομένων. Οι μεγάλοι κλώνοι όπως το HBase δεν αποτελούν εξαίρεση. Θα θελήσετε να χρησιμοποιήσετε αρκετούς φθηνούς διακομιστές βασικών προϊόντων σε ένα μόνο σύμπλεγμα και όχι σε ένα πολύ ισχυρό μηχάνημα. Αυτό οφείλεται στο γεγονός ότι μπορείτε να πάρετε συνολικά καλύτερη απόδοση ανά δολάριο χρησιμοποιώντας πολλούς διακομιστές βασικών προϊόντων, παρά ένα πολύ πιο δαπανηρό και μοναδικό, ισχυρό διακομιστή.
Εκτός από τη δυνατότητα γρήγορης κλιμάκωσης, οι οικονομικοί διακομιστές βασικών προϊόντων μπορούν επίσης να κάνουν την υπηρεσία βάσης δεδομένων πιο ανθεκτική και έτσι να αποτρέψουν τις αποτυχίες υλικού. Αυτό συμβαίνει επειδή έχετε άλλους διακομιστές για να αναλάβει την υπηρεσία εάν αποτύχει η μητρική πλακέτα ενός μόνο διακομιστή. Αυτό δεν συμβαίνει σε ένα μεγάλο διακομιστή.
Το σχήμα δείχνει μια ιδιαίτερα διαθέσιμη διαμόρφωση HBase με ένα παράδειγμα διαίρεσης δεδομένων μεταξύ των εξυπηρετητών.
Το διάγραμμα δείχνει δύο κόμβους (HRegionServers) σε μια ιδιαίτερα διαθέσιμη εγκατάσταση, η κάθε μία ενεργώντας ως αντίγραφο ασφαλείας για την άλλη.
Σε πολλές παραμέτρους παραγωγής, μπορεί να θέλετε τουλάχιστον τρεις κόμβους για υψηλή διαθεσιμότητα για να διασφαλίσετε ότι θα αντιμετωπιστούν δύο αποτυχίες διακομιστών κοντά στο χρόνο μεταξύ τους. Αυτό δεν είναι τόσο σπάνιο όσο θα σκέφτεστε! Οι συμβουλές ποικίλλουν ανά Bigtable. για παράδειγμα, το HBase συστήνει πέντε κόμβους ως ελάχιστο για ένα σύμπλεγμα:
-
Κάθε διακομιστής περιοχής διαχειρίζεται το δικό του σύνολο κλειδιών.
Η σχεδίαση μιας σειράς στρατηγικών κατανομής κλειδιού είναι σημαντική, διότι υπαγορεύει τον τρόπο κατανομής του φορτίου σε όλο το σύμπλεγμα.
-
| Κάθε περιοχή διατηρεί το δικό της αρχείο καταγραφής και το κατάστημα μνήμης.
Στο HBase, όλα τα δεδομένα γράφονται σε ένα κατάστημα της μνήμης και αργότερα αυτό το κατάστημα ξεπλένεται στο δίσκο. Στο δίσκο, αυτά τα καταστήματα ονομάζονται αρχεία καταστήματος .
Το HBase ερμηνεύει τα αρχεία καταστήματος ως μεμονωμένα αρχεία, αλλά στην πραγματικότητα διανέμονται σε κομμάτια σε ένα Hadoop Distributed File System (HDFS). Αυτό παρέχει υψηλή κατανάλωση και ταχύτητα ανάκτησης, επειδή όλες οι μεγάλες λειτουργίες εισόδου / εξόδου κατανέμονται σε πολλές μηχανές.
Για να μεγιστοποιηθεί η διαθεσιμότητα δεδομένων, από προεπιλογή, ο Hadoop διατηρεί τρία αντίγραφα από κάθε αρχείο δεδομένων. Μεγάλες εγκαταστάσεις έχουν
-
Ένα πρωτότυπο αντίγραφο
-
Ένα αντίγραφο μέσα στο ίδιο rack
-
Ένα άλλο αντίγραφο σε διαφορετικό rack
Πριν από το Hadoop 2. 0, το Namenodes δεν μπορούσε να γίνει πολύ διαθέσιμο. Αυτά διατηρούν μια λίστα με όλους τους ενεργούς διακομιστές στο σύμπλεγμα. Ήταν, συνεπώς, ένα μόνο σημείο αποτυχίας. Από το Hadoop 2. 0, αυτό το όριο δεν υπάρχει πλέον.