Πίνακας περιεχομένων:
- σε πραγματικό χρόνο
- Για να κατανοήσετε τον τρόπο σύγκρισης του MPP με ένα τυπικό πλαίσιο παράλληλης επεξεργασίας MapReduce, εξετάστε τα εξής. Το MPP εκτελεί εργασίες παράλληλης επεξεργασίας σε δαπανηρές, προσαρμοσμένες συσκευές, ενώ το MapReduce τις εκτελεί σε φτηνούς διακομιστές βασικών προϊόντων. Κατά συνέπεια, οι δυνατότητες επεξεργασίας MPP είναι περιοριστικές του κόστους. Αυτό είπε, το MPP είναι πιο γρήγορο και πιο εύκολο στη χρήση από τις τυπικές εργασίες MapReduce. Αυτό οφείλεται στο γεγονός ότι το MPP μπορεί να ερωτηθεί χρησιμοποιώντας τη δομημένη γλώσσα ερωτήματος (SQL), αλλά οι εγγενείς εργασίες MapReduce ελέγχονται από την πιο περίπλοκη γλώσσα προγραμματισμού Java.
- συστήματα διαχείρισης σχεσιακών βάσεων δεδομένων
Βίντεο: Une solution béton pour stocker l’énergie solaire à faible coût | André Gennesseaux | TEDxParisSalon 2024
Κοιτάζοντας το παρελθόν Hadoop, μπορείτε να δείτε εναλλακτικές λύσεις μεγάλων δεδομένων ο ορίζοντας. Αυτές οι λύσεις καθιστούν δυνατή την εργασία με μεγάλα δεδομένα σε πραγματικό χρόνο ή τη χρήση εναλλακτικών τεχνολογιών βάσεων δεδομένων για τη διαχείριση και την επεξεργασία τους. Εδώ μπορείτε να εισαγάγετε τα πλαίσια επεξεργασίας σε πραγματικό χρόνο, τις πλατφόρμες Massive Parallel Processing (MPP) και τέλος τις βάσεις δεδομένων NoSQL που σας επιτρέπουν να εργάζεστε με μεγάλα δεδομένα έξω από το περιβάλλον Hadoop.
Θα πρέπει να γνωρίζετε κάτι που αναφέρεται ως συμμόρφωση με το ACID, συντομευμένο για A τοματικότητα, C και D συμμόρφωση. Η συμμόρφωση με το όξινο οξύ είναι ένα πρότυπο με το οποίο εξασφαλίζονται ακριβείς και αξιόπιστες συναλλαγές βάσεων δεδομένων. Σε μεγάλες λύσεις δεδομένων, τα περισσότερα συστήματα βάσεων δεδομένων δεν είναι συμβατά με το ACID, αλλά αυτό δεν αποτελεί αναπόφευκτα σοβαρό πρόβλημα. Αυτό οφείλεται στο γεγονός ότι τα περισσότερα μεγάλα συστήματα δεδομένων χρησιμοποιούν Συστήματα Υποστήριξης Αποφάσεων (DSS), τα οποία επεξεργάζονται δεδομένα πριν από την ανάγνωση αυτών των δεδομένων. DSS
είναι συστήματα πληροφοριών που χρησιμοποιούνται για οργανωτική υποστήριξη αποφάσεων. Τα DSS χωρίς συναλλαγές δεν αποδεικνύουν πραγματικές απαιτήσεις συμμόρφωσης με το ACID.
σε πραγματικό χρόνο
είναι -όπως υποδηλώνει και το όνομά του- ένα πλαίσιο που είναι σε θέση να επεξεργάζεται δεδομένα σε πραγματικό χρόνο (ή σχεδόν σε πραγματικό χρόνο), καθώς τα ρεύματα δεδομένων και οι ροές στο σύστημα. Ουσιαστικά, τα πλαίσια επεξεργασίας σε πραγματικό χρόνο είναι η αντίθεση των πλαισίων επεξεργασίας παρτίδας που βλέπετε στην Hadoop.
αυτή η κατηγορία περιλαμβάνει Apache Storm και Apache Spark για επεξεργασία ρεύματος σχεδόν σε πραγματικό χρόνο.
-
Πλαίσια που αναπτύσσουν καινοτόμες μεθόδους αναζήτησης για να διευκολύνουν την αναζήτηση μεγάλων δεδομένων σε πραγματικό χρόνο: Ορισμένες λύσεις σε αυτήν την κατηγορία περιλαμβάνουν το Dremel της Google, το Drill Apache, το Shark για το Apache Hive και το Impala της Cloudera.
-
Πλατφόρμες μαζικής παράλληλης επεξεργασίας (MPP)
Πλατφόρμες μαζικής παράλληλης επεξεργασίας (MPP) μπορούν να χρησιμοποιηθούν αντί για MapReduce ως εναλλακτική προσέγγιση για την επεξεργασία κατανεμημένων δεδομένων. Εάν ο στόχος σας είναι να αναπτύξετε παράλληλη επεξεργασία σε μια παραδοσιακή αποθήκη δεδομένων, τότε ένα MPP μπορεί να είναι η τέλεια λύση.Για να κατανοήσετε τον τρόπο σύγκρισης του MPP με ένα τυπικό πλαίσιο παράλληλης επεξεργασίας MapReduce, εξετάστε τα εξής. Το MPP εκτελεί εργασίες παράλληλης επεξεργασίας σε δαπανηρές, προσαρμοσμένες συσκευές, ενώ το MapReduce τις εκτελεί σε φτηνούς διακομιστές βασικών προϊόντων. Κατά συνέπεια, οι δυνατότητες επεξεργασίας MPP είναι περιοριστικές του κόστους. Αυτό είπε, το MPP είναι πιο γρήγορο και πιο εύκολο στη χρήση από τις τυπικές εργασίες MapReduce. Αυτό οφείλεται στο γεγονός ότι το MPP μπορεί να ερωτηθεί χρησιμοποιώντας τη δομημένη γλώσσα ερωτήματος (SQL), αλλά οι εγγενείς εργασίες MapReduce ελέγχονται από την πιο περίπλοκη γλώσσα προγραμματισμού Java.
Οι γνωστοί προμηθευτές και προϊόντα MPP περιλαμβάνουν την πλατφόρμα Teradata της παλιάς σχολής, καθώς και νεότερες λύσεις όπως το EMC
2
της Greenplum DCA, η Vertica της HP, η Netezza της IBM και η Exadata της Oracle. Παρουσιάζοντας τις βάσεις δεδομένων NoSQL Τα παραδοσιακά
συστήματα διαχείρισης σχεσιακών βάσεων δεδομένων
(RDBMS) δεν είναι εξοπλισμένα για να χειρίζονται μεγάλες απαιτήσεις δεδομένων. Αυτό οφείλεται στο γεγονός ότι οι παραδοσιακές σχεσιακές βάσεις δεδομένων έχουν σχεδιαστεί για να χειρίζονται μόνο συσχετιστικά σύνολα δεδομένων που είναι κατασκευασμένα από δεδομένα που είναι αποθηκευμένα σε καθαρές σειρές και στήλες και έτσι μπορούν να ερωτηθούν μέσω δομημένης γλώσσας ερωτήματος (SQL). Τα συστήματα RDBM δεν είναι σε θέση να χειρίζονται μη δομημένα και ημιδομημένα δεδομένα. Επιπλέον, τα συστήματα RDBM απλά δεν διαθέτουν τις δυνατότητες επεξεργασίας και χειρισμού που απαιτούνται για την ικανοποίηση μεγάλων απαιτήσεων όγκου και ταχύτητας δεδομένων. Αυτό είναι το σημείο όπου εισέρχεται το NoSQL. Οι βάσεις δεδομένων NoSQL, όπως το MongoDB, είναι μη σχεσιακά, κατανεμημένα συστήματα βάσεων δεδομένων που είχαν σχεδιαστεί για να ανέλθουν στην μεγάλη πρόκληση δεδομένων. Οι βάσεις δεδομένων NoSQL ξεφεύγουν από την παραδοσιακή αρχιτεκτονική σχεσιακών βάσεων δεδομένων και προσφέρουν μια πολύ πιο κλιμακούμενη και αποδοτική λύση.
Τα συστήματα NoSQL διευκολύνουν την αναζήτηση δεδομένων μη SQL που αφορούν μη σχεσιακά ή χωρίς σχήματα, ημι-δομημένα και αδόμητα δεδομένα. Με αυτόν τον τρόπο, οι βάσεις δεδομένων NoSQL είναι σε θέση να χειριστούν τις δομημένες, ημιδομημένες και αδόμητες πηγές δεδομένων που είναι κοινές στα μεγάλα συστήματα δεδομένων.
Η NoSQL προσφέρει τέσσερις κατηγορίες μη σχεσιακών βάσεων δεδομένων - βάσεις δεδομένων γραφημάτων, βάσεις δεδομένων εγγράφων, καταστήματα βασικών τιμών και καταστήματα οικογενειών στηλών. Δεδομένου ότι ο NoSQL προσφέρει εγγενή λειτουργικότητα για καθέναν από αυτούς τους ξεχωριστούς τύπους δομών δεδομένων, προσφέρει πολύ αποτελεσματική λειτουργικότητα αποθήκευσης και ανάκτησης για τους περισσότερους τύπους μη σχεσιακών δεδομένων. Αυτή η προσαρμοστικότητα και αποδοτικότητα καθιστά το NoSQL μια όλο και πιο δημοφιλής επιλογή για το χειρισμό μεγάλων δεδομένων και για την αντιμετώπιση των προκλήσεων επεξεργασίας που έρχονται μαζί με αυτό.
Υπάρχει κάπως μια συζήτηση σχετικά με τη σημασία του ονόματος NoSQL. Ορισμένοι υποστηρίζουν ότι το NoSQL σημαίνει
όχι μόνο SQL, ενώ άλλοι υποστηρίζουν ότι το ακρωνύμιο αντιπροσωπεύει βάσεις δεδομένων μη-SQL . Το επιχείρημα είναι μάλλον περίπλοκο και δεν υπάρχει πραγματική απάντηση.Για να διατηρήσετε τα πράγματα απλά, σκεφτείτε μόνο το NoSQL ως μια κατηγορία μη σχεσιακών συστημάτων διαχείρισης βάσεων δεδομένων που δεν εμπίπτουν στο φάσμα των συστημάτων RDBM που ερωτούνται με SQL.