Διαχείριση μεγάλων τεχνολογιών δεδομένων σε υβριδικό σύννεφο - Dummies

Ο όρος μεγάλα δεδομένα χρησιμοποιείται συχνά στον κόσμο της τεχνολογίας υβριδικών σύννεφων λόγω της συνεχιζόμενης ανάγκης επεξεργασίας των αυξανόμενων ποσοτήτων δεδομένων. Το βασικό γεγονός για τα μεγάλα δεδομένα είναι ότι υπάρχει στο σημείο ανατροπής των εναλλακτικών λύσεων που οι οργανώσεις έχουν εφαρμόσει ιστορικά για να διαχειριστούν μεγάλους όγκους σύνθετων δεδομένων. Οι μεγάλες τεχνολογίες δεδομένων επιτρέπουν στους ανθρώπους να αναλύουν και να αξιοποιούν αποτελεσματικά αυτά τα δεδομένα.

Όγκος:

Τα μεγάλα δεδομένα είναι μεγάλα σε όγκο. Γενικά αναφέρεται σε τουλάχιστον πολλά terabyte δεδομένων. Πολλές μεγάλες υλοποιήσεις δεδομένων προσπαθούν να αναλύσουν πεντακύτταρα πληροφοριών.

Όνομα Τιμή

Byte 10

0 Gigabyte ¹⁰

9 bytes ^Terabyte 10

12 > bytes

15

^{--2 ->} Ποικιλία:

Τα μεγάλα δεδομένα διατίθενται σε διαφορετικά σχήματα και μεγέθη. Περιλαμβάνει αυτούς τους τύπους δεδομένων:
Δομημένα δεδομένα είναι το τυπικό είδος δεδομένων με τα οποία χρησιμοποιούνται οι αναλυτές. Περιλαμβάνει τα έσοδα και τον αριθμό των πωλήσεων - τον τύπο των δεδομένων που σκέφτεστε να συμπεριλάβετε σε μια βάση δεδομένων. Τα δομημένα δεδομένα παράγονται επίσης με νέους τρόπους σε προϊόντα όπως αισθητήρες και ετικέτες RFID.
- Τα ημικατεργασμένα δεδομένα
  έχουν κάποια δομή σε αυτό, αλλά όχι στον τρόπο που σκέφτεστε τους πίνακες σε μια βάση δεδομένων. Περιλαμβάνει μορφές EDI και XML.
- Τα αδόμητα δεδομένα περιλαμβάνουν κείμενο, εικόνα και ήχο, συμπεριλαμβανομένου οποιουδήποτε εγγράφου, μηνύματος ηλεκτρονικού ταχυδρομείου, τιτίβισμα ή blog εσωτερικού μιας εταιρείας ή στο Διαδίκτυο. Τα μη δομημένα δεδομένα αντιπροσωπεύουν περίπου το 80% όλων των δεδομένων.
- Ταχύτητα: Αυτή είναι η ταχύτητα με την οποία μετακινούνται τα δεδομένα. Σκεφτείτε τους αισθητήρες που συλλέγουν δεδομένα κάθε χιλιοστά του δευτερολέπτου ή τις ροές δεδομένων που προέρχονται από τον ιατρικό εξοπλισμό. Μεγάλα δεδομένα έρχονται συχνά σε σας σε ένα ρεύμα, έτσι έχει ένα πραγματικό χρόνο που συνδέεται με αυτό.
Το σύννεφο είναι ιδανικό μέρος για μεγάλα δεδομένα λόγω της κλιμακούμενης αποθήκευσης, της υπολογιστικής ισχύος και των ελαστικών πόρων. Το μοντέλο σύννεφο είναι μεγάλης κλίμακας. κατανεμημένα υπολογιστικά συστήματα και μια σειρά πλαισίων και τεχνολογιών που προέκυψαν για να υποστηρίξουν αυτό το μοντέλο, συμπεριλαμβανομένου του Apache Hadoop:

Byte	10
0	Gigabyte ¹⁰
9	bytes ^Terabyte 10
12 > bytes
	15
	^{--2 ->} Ποικιλία:

Μια ανοικτή πηγή κατανεμημένη υπολογιστική πλατφόρμα γραμμένη σε Java. Πρόκειται για μια βιβλιοθήκη λογισμικού που επιτρέπει την κατανεμημένη επεξεργασία μέσω συμπλεγμάτων υπολογιστών. Είναι πραγματικά ένα κατανεμημένο σύστημα αρχείων. Δημιουργεί μια πισίνα υπολογιστών, η καθεμία με σύστημα αρχείων Hadoop. Ο Hadoop σχεδιάστηκε για να ασχολείται με μεγάλα ποσά σύνθετων δεδομένων.Τα δεδομένα μπορούν να είναι δομημένα, αδόμητα ή ημιδομημένα. Ο Hadoop μπορεί να τρέξει σε πολλούς διακομιστές που δεν μοιράζονται μνήμη ή δίσκο. Δείτε Hadoop για περισσότερες πληροφορίες.

MapReduce: Ένα πλαίσιο λογισμικού που εισήγαγε η Google για την υποστήριξη κατανεμημένων υπολογιστών σε μεγάλα σύνολα δεδομένων. Είναι στο επίκεντρο του τι κάνει η Hadoop με μεγάλα δεδομένα και μεγάλα δεδομένα. Είναι σχεδιασμένο για να εκμεταλλεύεται τους πόρους του cloud. Αυτός ο υπολογισμός γίνεται σε διάφορους υπολογιστές, που ονομάζονται
συμπλέγματα , και κάθε σύμπλεγμα αναφέρεται ως κόμβος . Το MapReduce μπορεί να ασχοληθεί τόσο με δομημένα όσο και μη δομημένα δεδομένα. Οι χρήστες καθορίζουν μια συνάρτηση χαρτών που επεξεργάζεται ζεύγος κλειδιού / τιμής για να δημιουργήσει ένα σύνολο από ενδιάμεσα ζεύγη και μια λειτουργία μείωσης που συγχωνεύει αυτά τα ζεύγη. Μεγάλες βάσεις δεδομένων Μια σημαντική έκκληση του Hadoop είναι ότι μπορεί να χειριστεί διαφορετικούς τύπους δεδομένων. Παράλληλα συστήματα διαχείρισης βάσεων δεδομένων βρίσκονται στην αγορά εδώ και δεκαετίες. Μπορούν να υποστηρίξουν την παράλληλη εκτέλεση, επειδή οι περισσότεροι από τους πίνακες χωρίζονται σε κόμβους σε ένα σύμπλεγμα και μπορούν να μεταφράσουν εντολές SQL σε ένα σχέδιο που χωρίζεται στους κόμβους του συμπλέγματος. Ωστόσο, ασχολούνται κυρίως με τα δομημένα δεδομένα, επειδή είναι δύσκολο να χωρέσουν μη δομημένα δεδομένα ελεύθερης μορφής στις στήλες και τις σειρές σε ένα σχεσιακό μοντέλο.

Ο Hadoop έχει ξεκινήσει μια κίνηση σε αυτό που ονομάστηκε

NoSQL, που σημαίνει όχι μόνο SQL. Ο όρος αναφέρεται σε ένα σύνολο τεχνολογιών που διαφέρει από τα συστήματα σχεσιακών βάσεων δεδομένων. Μια σημαντική διαφορά είναι ότι δεν χρησιμοποιούν SQL. Είναι επίσης σχεδιασμένα για καταστήματα κατανεμημένων δεδομένων. Το NoSQL δεν σημαίνει ότι οι χρήστες δεν πρέπει να χρησιμοποιούν SQL. Αντίθετα, η ιδέα είναι ότι, ανάλογα με το πρόβλημα που αντιμετωπίζετε, οι σχεσιακές βάσεις δεδομένων και οι βάσεις δεδομένων NoSQL μπορούν να συνυπάρχουν σε έναν οργανισμό. Υπάρχουν πολυάριθμα παραδείγματα τέτοιων βάσεων δεδομένων, μεταξύ των οποίων περιλαμβάνονται τα εξής: Apache Cassandra:

Ένα σύστημα διανομής δεδομένων ανοιχτού κώδικα που αναπτύχθηκε αρχικά από το Facebook. Δεν έχει αυστηρές απαιτήσεις δομής, ώστε να μπορεί να χειρίζεται όλους τους διαφορετικούς τύπους δεδομένων. Οι ειδικοί ισχυρίζονται ότι υπερέχουν σε επεξεργασίες συναλλαγών σε πραγματικό χρόνο σε μεγάλες ποσότητες. Άλλες βάσεις δεδομένων ανοικτού κώδικα περιλαμβάνουν τα MongoDB, Apache CouchDB και Apache HBase.

Amazon Simple DB: Η Amazon παρομοιάζει αυτήν τη βάση δεδομένων σε ένα υπολογιστικό φύλλο με το ότι έχει στήλες και σειρές με χαρακτηριστικά και αντικείμενα αποθηκευμένα σε κάθε ένα. Σε αντίθεση με ένα υπολογιστικό φύλλο, ωστόσο, κάθε κύτταρο μπορεί να έχει πολλαπλές τιμές και κάθε στοιχείο μπορεί να έχει το δικό του σύνολο σχετικών χαρακτηριστικών. Στη συνέχεια, το Amazon καταγράφει αυτόματα τα δεδομένα. Πρόσφατα, η Amazon ανακοίνωσε το Amazon Dynamo DB ως έναν τρόπο να φέρει τα μεγάλα δεδομένα NoSQL στο σύννεφο.
Google BigTable: Αυτό το υβρίδιο είναι σαν ένα μεγάλο τραπέζι. Επειδή οι πίνακες μπορούν να είναι μεγάλοι, είναι χωρισμένοι στα όρια των γραμμών σε πίνακες, οι οποίοι μπορεί να είναι εκατοντάδες megabyte περίπου. Το MapReduce χρησιμοποιείται συχνά για τη δημιουργία και την τροποποίηση δεδομένων που είναι αποθηκευμένα στο BigTable.