Εναλλακτική Big Data Solutions - ανδρείκελα - Προσωπικά Οικονομικά 2024

Κοιτάζοντας το παρελθόν Hadoop, μπορείτε να δείτε εναλλακτικές λύσεις μεγάλων δεδομένων ο ορίζοντας. Αυτές οι λύσεις καθιστούν δυνατή την εργασία με μεγάλα δεδομένα σε πραγματικό χρόνο ή τη χρήση εναλλακτικών τεχνολογιών βάσεων δεδομένων για τη διαχείριση και την επεξεργασία τους. Εδώ μπορείτε να εισαγάγετε τα πλαίσια επεξεργασίας σε πραγματικό χρόνο, τις πλατφόρμες Massive Parallel Processing (MPP) και τέλος τις βάσεις δεδομένων NoSQL που σας επιτρέπουν να εργάζεστε με μεγάλα δεδομένα έξω από το περιβάλλον Hadoop.

Θα πρέπει να γνωρίζετε κάτι που αναφέρεται ως συμμόρφωση με το ACID, συντομευμένο για A τοματικότητα, C και D συμμόρφωση. Η συμμόρφωση με το όξινο οξύ είναι ένα πρότυπο με το οποίο εξασφαλίζονται ακριβείς και αξιόπιστες συναλλαγές βάσεων δεδομένων. Σε μεγάλες λύσεις δεδομένων, τα περισσότερα συστήματα βάσεων δεδομένων δεν είναι συμβατά με το ACID, αλλά αυτό δεν αποτελεί αναπόφευκτα σοβαρό πρόβλημα. Αυτό οφείλεται στο γεγονός ότι τα περισσότερα μεγάλα συστήματα δεδομένων χρησιμοποιούν Συστήματα Υποστήριξης Αποφάσεων (DSS), τα οποία επεξεργάζονται δεδομένα πριν από την ανάγνωση αυτών των δεδομένων. DSS

είναι συστήματα πληροφοριών που χρησιμοποιούνται για οργανωτική υποστήριξη αποφάσεων. Τα DSS χωρίς συναλλαγές δεν αποδεικνύουν πραγματικές απαιτήσεις συμμόρφωσης με το ACID.

Πλαίσια επεξεργασίας σε πραγματικό χρόνο

Μερικές φορές ίσως χρειαστεί να ψάξετε μεγάλα ροές δεδομένων σε πραγματικό χρόνο … και απλά δεν μπορείτε να κάνετε τέτοια πράγματα χρησιμοποιώντας το Hadoop. Σε αυτές τις περιπτώσεις, χρησιμοποιήστε ένα πλαίσιο επεξεργασίας σε πραγματικό χρόνο. Ένα πλαίσιο επεξεργασίας

σε πραγματικό χρόνο

είναι -όπως υποδηλώνει και το όνομά του- ένα πλαίσιο που είναι σε θέση να επεξεργάζεται δεδομένα σε πραγματικό χρόνο (ή σχεδόν σε πραγματικό χρόνο), καθώς τα ρεύματα δεδομένων και οι ροές στο σύστημα. Ουσιαστικά, τα πλαίσια επεξεργασίας σε πραγματικό χρόνο είναι η αντίθεση των πλαισίων επεξεργασίας παρτίδας που βλέπετε στην Hadoop.

Τα πλαίσια επεξεργασίας σε πραγματικό χρόνο μπορούν να ταξινομηθούν στις ακόλουθες δύο κατηγορίες:

Πλαίσια που μειώνουν τα γενικά έξοδα των εργασιών MapReduce για αύξηση της συνολικής χρονικής αποτελεσματικότητας του συστήματος:

αυτή η κατηγορία περιλαμβάνει Apache Storm και Apache Spark για επεξεργασία ρεύματος σχεδόν σε πραγματικό χρόνο.

Πλαίσια που αναπτύσσουν καινοτόμες μεθόδους αναζήτησης για να διευκολύνουν την αναζήτηση μεγάλων δεδομένων σε πραγματικό χρόνο: Ορισμένες λύσεις σε αυτήν την κατηγορία περιλαμβάνουν το Dremel της Google, το Drill Apache, το Shark για το Apache Hive και το Impala της Cloudera.
Τα πλαίσια επεξεργασίας ροής σε πραγματικό χρόνο είναι αρκετά χρήσιμα σε πολλές βιομηχανίες - από τις αναλύσεις των αποθεμάτων και των χρηματοπιστωτικών αγορών μέχρι τις βελτιστοποιήσεις του ηλεκτρονικού εμπορίου και από την ανίχνευση απάτης σε πραγματικό χρόνο σε βελτιστοποιημένη εφοδιαστική. Ανεξάρτητα από τη βιομηχανία στην οποία εργάζεστε, εάν η επιχείρησή σας επηρεάζεται από ροές δεδομένων σε πραγματικό χρόνο που παράγονται από ανθρώπους, μηχανές ή αισθητήρες, τότε ένα πλαίσιο επεξεργασίας σε πραγματικό χρόνο θα σας βοηθούσε στη βελτιστοποίηση και τη δημιουργία αξίας για οργάνωση.

Πλατφόρμες μαζικής παράλληλης επεξεργασίας (MPP)

Πλατφόρμες μαζικής παράλληλης επεξεργασίας (MPP) μπορούν να χρησιμοποιηθούν αντί για MapReduce ως εναλλακτική προσέγγιση για την επεξεργασία κατανεμημένων δεδομένων. Εάν ο στόχος σας είναι να αναπτύξετε παράλληλη επεξεργασία σε μια παραδοσιακή αποθήκη δεδομένων, τότε ένα MPP μπορεί να είναι η τέλεια λύση.

Για να κατανοήσετε τον τρόπο σύγκρισης του MPP με ένα τυπικό πλαίσιο παράλληλης επεξεργασίας MapReduce, εξετάστε τα εξής. Το MPP εκτελεί εργασίες παράλληλης επεξεργασίας σε δαπανηρές, προσαρμοσμένες συσκευές, ενώ το MapReduce τις εκτελεί σε φτηνούς διακομιστές βασικών προϊόντων. Κατά συνέπεια, οι δυνατότητες επεξεργασίας MPP είναι περιοριστικές του κόστους. Αυτό είπε, το MPP είναι πιο γρήγορο και πιο εύκολο στη χρήση από τις τυπικές εργασίες MapReduce. Αυτό οφείλεται στο γεγονός ότι το MPP μπορεί να ερωτηθεί χρησιμοποιώντας τη δομημένη γλώσσα ερωτήματος (SQL), αλλά οι εγγενείς εργασίες MapReduce ελέγχονται από την πιο περίπλοκη γλώσσα προγραμματισμού Java.

Οι γνωστοί προμηθευτές και προϊόντα MPP περιλαμβάνουν την πλατφόρμα Teradata της παλιάς σχολής, καθώς και νεότερες λύσεις όπως το EMC

της Greenplum DCA, η Vertica της HP, η Netezza της IBM και η Exadata της Oracle. ^{Παρουσιάζοντας τις βάσεις δεδομένων NoSQL} Τα παραδοσιακά

συστήματα διαχείρισης σχεσιακών βάσεων δεδομένων

(RDBMS) δεν είναι εξοπλισμένα για να χειρίζονται μεγάλες απαιτήσεις δεδομένων. Αυτό οφείλεται στο γεγονός ότι οι παραδοσιακές σχεσιακές βάσεις δεδομένων έχουν σχεδιαστεί για να χειρίζονται μόνο συσχετιστικά σύνολα δεδομένων που είναι κατασκευασμένα από δεδομένα που είναι αποθηκευμένα σε καθαρές σειρές και στήλες και έτσι μπορούν να ερωτηθούν μέσω δομημένης γλώσσας ερωτήματος (SQL). Τα συστήματα RDBM δεν είναι σε θέση να χειρίζονται μη δομημένα και ημιδομημένα δεδομένα. Επιπλέον, τα συστήματα RDBM απλά δεν διαθέτουν τις δυνατότητες επεξεργασίας και χειρισμού που απαιτούνται για την ικανοποίηση μεγάλων απαιτήσεων όγκου και ταχύτητας δεδομένων. Αυτό είναι το σημείο όπου εισέρχεται το NoSQL. Οι βάσεις δεδομένων NoSQL, όπως το MongoDB, είναι μη σχεσιακά, κατανεμημένα συστήματα βάσεων δεδομένων που είχαν σχεδιαστεί για να ανέλθουν στην μεγάλη πρόκληση δεδομένων. Οι βάσεις δεδομένων NoSQL ξεφεύγουν από την παραδοσιακή αρχιτεκτονική σχεσιακών βάσεων δεδομένων και προσφέρουν μια πολύ πιο κλιμακούμενη και αποδοτική λύση.

Τα συστήματα NoSQL διευκολύνουν την αναζήτηση δεδομένων μη SQL που αφορούν μη σχεσιακά ή χωρίς σχήματα, ημι-δομημένα και αδόμητα δεδομένα. Με αυτόν τον τρόπο, οι βάσεις δεδομένων NoSQL είναι σε θέση να χειριστούν τις δομημένες, ημιδομημένες και αδόμητες πηγές δεδομένων που είναι κοινές στα μεγάλα συστήματα δεδομένων.

Η NoSQL προσφέρει τέσσερις κατηγορίες μη σχεσιακών βάσεων δεδομένων - βάσεις δεδομένων γραφημάτων, βάσεις δεδομένων εγγράφων, καταστήματα βασικών τιμών και καταστήματα οικογενειών στηλών. Δεδομένου ότι ο NoSQL προσφέρει εγγενή λειτουργικότητα για καθέναν από αυτούς τους ξεχωριστούς τύπους δομών δεδομένων, προσφέρει πολύ αποτελεσματική λειτουργικότητα αποθήκευσης και ανάκτησης για τους περισσότερους τύπους μη σχεσιακών δεδομένων. Αυτή η προσαρμοστικότητα και αποδοτικότητα καθιστά το NoSQL μια όλο και πιο δημοφιλής επιλογή για το χειρισμό μεγάλων δεδομένων και για την αντιμετώπιση των προκλήσεων επεξεργασίας που έρχονται μαζί με αυτό.

Υπάρχει κάπως μια συζήτηση σχετικά με τη σημασία του ονόματος NoSQL. Ορισμένοι υποστηρίζουν ότι το NoSQL σημαίνει

όχι μόνο SQL, ενώ άλλοι υποστηρίζουν ότι το ακρωνύμιο αντιπροσωπεύει βάσεις δεδομένων μη-SQL . Το επιχείρημα είναι μάλλον περίπλοκο και δεν υπάρχει πραγματική απάντηση.Για να διατηρήσετε τα πράγματα απλά, σκεφτείτε μόνο το NoSQL ως μια κατηγορία μη σχεσιακών συστημάτων διαχείρισης βάσεων δεδομένων που δεν εμπίπτουν στο φάσμα των συστημάτων RDBM που ερωτούνται με SQL.