Sqoop 2. 0 Προεπισκόπηση - dummies
Με όλη την επιτυχία γύρω από το Sqoop 1. x μετά την αποφοίτησή του από τον επωαστήρα Apache , Sqoop έχει ορμή! Έτσι, όπως θα περίμενε κανείς, το Sqoop 2. 0 είναι στο έργο με συναρπαστικά νέα χαρακτηριστικά στο δρόμο. Μπορείτε να δείτε ότι το Sqoop 1. 99. 3 είναι downloadable, συμπληρωμένο με τεκμηρίωση. Αναρωτιέστε πιθανώς πόσες 1. 99. x κυκλοφορίες θα είναι ...
Sqoop Connectors and Drivers - dummies
Οι συνδέσεις Sqoop συμβαδίζουν γενικά με ένα πρόγραμμα οδήγησης JDBC. Το Sqoop δεν συνδέει τα προγράμματα οδήγησης JDBC επειδή είναι συνήθως ιδιόκτητα και έχουν άδεια χρήσης από τον πωλητή RDBMS ή DW. Έτσι, υπάρχουν τρία πιθανά σενάρια για το Sqoop, ανάλογα με τον τύπο του συστήματος διαχείρισης δεδομένων (RDBMS, DW ή NoSQL) που προσπαθείτε να ...
Εξαγωγή Sqoop Χρησιμοποιώντας την Ενημέρωση και την Ενημέρωση Προσέγγισης Εισαγωγής - dummies
Προσαρτώνται στο τέλος του πίνακα στόχων. Το Sqoop παρέχει επίσης μια λειτουργία ενημέρωσης που μπορείτε να χρησιμοποιήσετε παρέχοντας το όρισμα της γραμμής εντολών -update. Αυτή η ενέργεια αναγκάζει το Sqoop να δημιουργήσει μια δήλωση SQL UPDATE για εκτέλεση στο RDBMS ή την αποθήκη δεδομένων. Ας υποθέσουμε ότι ...
SQuirreL ως πελάτης με το πρόγραμμα οδήγησης JDBC - dummies
SQuirreL SQL είναι ένα εργαλείο ανοιχτού κώδικα ένα πελάτη κυψέλης. Μπορείτε να κάνετε λήψη αυτού του καθολικού προγράμματος-πελάτη SQL από τον ιστότοπο SourceForge. Παρέχει ένα περιβάλλον εργασίας χρήστη για το Hive και απλοποιεί τις εργασίες διερεύνησης μεγάλων πινάκων και ανάλυσης δεδομένων με το Apache Hive. Το σχήμα δείχνει πώς θα μπορούσε να λειτουργήσει η αρχιτεκτονική κυψέλης όταν ...
Ανάλυση κοινωνικού συναίσθηματος με Hadoop - ανδρείκελα
Ανάλυση κοινωνικού συναίσθηματος είναι εύκολα η μεγαλύτερη από τις χρήσεις του Hadoop. δεν αποτελεί έκπληξη, δεδομένου ότι ο κόσμος συνδέεται συνεχώς και ο σημερινός εκφραστικός πληθυσμός. Αυτή η περίπτωση χρήσης αξιοποιεί περιεχόμενο από φόρουμ, ιστολόγια και άλλους πόρους των κοινωνικών μέσων ενημέρωσης για να αναπτύξει μια αίσθηση του τι κάνουν οι άνθρωποι (για παράδειγμα, συμβάντα ζωής) ...
Παίρνετε HBase για δοκιμαστική λειτουργία - dummies
Εδώ, μπορείτε να μάθετε πώς να κατεβάσετε και να αναπτύξετε HBase σε αυτόνομη λειτουργία . Είναι εκπληκτικά απλό να εγκαταστήσετε το HBase και να αρχίσετε να χρησιμοποιείτε την τεχνολογία. Λάβετε υπόψη ότι το HBase αναπτύσσεται συνήθως σε ένα σύμπλεγμα διακομιστών βασικών προϊόντων, αν και μπορείτε επίσης εύκολα να αναπτύξετε το HBase σε μια αυτόνομη διαμόρφωση αντί για μάθηση ή επίδειξη ...
Στην αρχιτεκτονική του Apache Hive - dummies
Καθώς εξετάζετε τα στοιχεία της κυψέλης Apache που φαίνονται, ότι η κυψέλη βρίσκεται πάνω από τα συστήματα Hadoop Distributed File System (HDFS) και MapReduce. Στην περίπτωση του MapReduce, τα στοιχεία δείχνουν τόσο τα στοιχεία Hadoop 1 όσο και το Hadoop 2. Με το Hadoop 1, τα ερωτήματα Hive μετατρέπονται στον κώδικα MapReduce ...
Η ζώνη προσγείωσης
Όταν προσπαθείτε να αποκαλύψετε τι μπορεί να μοιάζει με ένα περιβάλλον ανάλυσης στο μέλλον, σκοντάφτετε το μοτίβο της ζώνης προσγείωσης με βάση το Hadoop ξανά και ξανά. Στην πραγματικότητα, δεν είναι πλέον ούτε μια συζήτηση προσανατολισμένη στο μέλλον, επειδή η ζώνη προσγείωσης έχει γίνει ο τρόπος με τον οποίο οι εταιρίες με προοδευτικές προοπτικές προσπαθούν τώρα να εξοικονομήσουν χρήματα ...
Οι Περιορισμοί της Δειγματοληψίας στα στατιστικά στοιχεία ανάλυσης Hadoop - dummies
Απέχουν πολύ από το να είναι ένα νέο παιδί στο μπλοκ και είναι βεβαίως παλιά νέα ότι εξαρτάται από την επεξεργασία μεγάλων ποσοτήτων δεδομένων για να αποκτήσουν νέα διορατικότητα. Ωστόσο, ο όγκος δεδομένων που επεξεργάζεται παραδοσιακά αυτά τα συστήματα κυμαίνεται μεταξύ 10 και 100 (ή εκατοντάδων) Gigabytes ...
Το HBase MasterServer - dummies
Ξεκινώντας μια συζήτηση της αρχιτεκτονικής HBase (Hadoop Database) περιγράφοντας το RegionServers αντί του MasterServer . Ο όρος RegionServer φαίνεται να υποδηλώνει ότι εξαρτάται (και είναι δευτερεύον) από το MasterServer και ότι πρέπει να συζητήσετε πρώτα το MasterServer. Όπως συμβαίνει και με το παλιό τραγούδι, "δεν είναι απαραίτητα έτσι. "Η ...
Τα κλειδιά για την επιτυχή υιοθέτηση του Hadoop - dummies
Σε οποιοδήποτε σοβαρό πρόγραμμα Hadoop. οι ηγέτες των αντιπροέδρων για να βοηθήσουν στην επίλυση των σημείων πόνου της επιχείρησής σας - αυτά τα προβλήματα (πραγματικά ή αντιληπτά) που είναι μεγάλα σε όλους τους νους. Οι επιχειρήσεις θέλουν να δουν αξία από τις επενδύσεις τους σε τεχνολογίες πληροφορικής και με τον Hadoop μπορεί να έρθει σε μια ποικιλία ...
Ο πελάτης Hive CLI - dummies
Ο πρώτος πελάτης Hive είναι η διεπαφή γραμμής εντολών Hive (CLI). Για να ελέγξετε τα καλύτερα σημεία του προγράμματος-πελάτη Hive CLI, θα μπορούσε να βοηθήσει στην ανασκόπηση της αρχιτεκτονικής κυψέλης (κάπως απασχολημένος). Στο δεύτερο σχήμα, η αρχιτεκτονική είναι εξορθολογισμένη ώστε να επικεντρώνεται μόνο στα στοιχεία που απαιτούνται κατά την εκτέλεση του CLI. Αυτά είναι τα συστατικά ...
Το HBase Client Ecosystem - dummies
HBase γράφεται στην Java, μια κομψή γλώσσα για την κατασκευή κατανεμημένων τεχνολογιών όπως HBase αυτό - δεν είναι όλοι όσοι θέλουν να επωφεληθούν από τις καινοτομίες HBase είναι προγραμματιστής Java. Αυτός είναι ο λόγος για τον οποίο υπάρχει ένα πλούσιο οικοσύστημα πελάτη HBase εκεί έξω, ο μοναδικός σκοπός του οποίου είναι να κάνει την βαριά Java ανύψωση για εσάς και ...
Η σημασία του MapReduce στο Hadoop - dummies
Για το μεγαλύτερο μέρος της ιστορίας του Hadoop, MapReduce ήταν το μοναδικό παιχνίδι στην πόλη όταν πρόκειται για την επεξεργασία δεδομένων. Η διαθεσιμότητα του MapReduce υπήρξε ο λόγος για την επιτυχία του Hadoop και παράλληλα ένας σημαντικός παράγοντας για τον περιορισμό της περαιτέρω υιοθέτησης. Το MapReduce επιτρέπει στους εξειδικευμένους προγραμματιστές να γράφουν κατανεμημένες εφαρμογές χωρίς να χρειάζεται να ανησυχούν για ...
Είναι τα χαρακτηριστικά του HBase - dummies
HBase (Hadoop Database). Η Google ορίζει το BigTable ως "αραιό, κατανεμημένο, επίμονο πολυδιάστατο ταξινομημένο χάρτη. "Είναι ένας πολύ σύντομος ορισμός, αλλά θα συμφωνήσετε επίσης ότι είναι λίγο από την πολύπλοκη πλευρά. Για να καταρρεύσει η πολυπλοκότητα του BigTable λίγο, ακολουθεί μια συζήτηση για κάθε χαρακτηριστικό. Το Hbase είναι αραιό ...
Η Αρχιτεκτονική Χοιροειδών σε Hadoop - dummies
"απλή" συχνά σημαίνει "κομψό" ότι το νέο αρχοντικό της Silicon Valley που έχετε προγραμματίσει για το πότε ξεκινούν τα χρήματα μετά την εφαρμογή του Hadoop. Η ίδια αρχή ισχύει για την αρχιτεκτονική λογισμικού. Ο χορός αποτελείται από δύο συστατικά: Την ίδια την γλώσσα: Ως απόδειξη ότι οι προγραμματιστές ...
Η ροή εφαρμογής MapReduce στο Hadoop - dummies
Στον πυρήνα της, MapReduce είναι ένα μοντέλο προγραμματισμού για την επεξεργασία δεδομένων αποθηκεύονται κατά τρόπο κατανεμημένο σε όλους τους κόμβους του σκλάβου του συμπλέγματος του Hadoop. Η βασική ιδέα εδώ είναι η διάσπαση και η κατάκτηση. Συγκεκριμένα, θέλετε να σπάσετε ένα μεγάλο σύνολο δεδομένων σε πολλά μικρότερα κομμάτια και να τα επεξεργαστείτε παράλληλα με τον ίδιο αλγόριθμο. ...
Η ροή λατινικής εφαρμογής χοίρων σε Hadoop - dummies
Στον πυρήνα της, ορίζετε μια ροή δεδομένων και μια σειρά μετασχηματισμών που εφαρμόζονται στα δεδομένα καθώς περνάει μέσα από την εφαρμογή σας. Αυτό είναι σε αντίθεση με μια γλώσσα ροής ελέγχου (όπως C ή Java), όπου γράφετε μια σειρά οδηγιών. Στη ροή ελέγχου ...
Προγραμματισμός < < οι αρχές της Sqoop Design - dummies
Όταν πρόκειται για Sqoop, ελέγξτε την εικόνα, η οποία σας δίνει μια εικόνα του σπιτιού της αρχιτεκτονικής Sqoop. Η ιδέα πίσω από το Sqoop είναι ότι αξιοποιεί τα καθήκοντα χάρτη - τα καθήκοντα που εκτελούν την παράλληλη εισαγωγή και εξαγωγή των σχετικών βάσεων δεδομένων βάσης - ακριβώς από μέσα ...
Η Αρχιτεκτονική YARN σε Hadoop - dummies
YARN, για όσους φτάνουν στο συγκεκριμένο κόμμα, Διαπραγματευτής, ένα εργαλείο που επιτρέπει σε άλλα πλαίσια επεξεργασίας δεδομένων να τρέχουν σε Hadoop. Η δόξα του YARN είναι ότι παρουσιάζει τον Hadoop με μια κομψή λύση σε μια σειρά από μακροχρόνιες προκλήσεις. Το YARN προορίζεται να παράσχει ένα πιο αποτελεσματικό και ...
Ό, τι SQL Access πραγματικά σημαίνει - ανδρείκελα
Ορισμένες εταιρείες επενδύουν σε προγράμματα ανοιχτού κώδικα και ιδιωτικές λύσεις Πρόσβαση SQL σε δεδομένα Hadoop. Όταν ακούτε τον όρο SQL Access, θα πρέπει να γνωρίζετε ότι βασίζεστε σε μερικές βασικές υποθέσεις: Γλωσσικά πρότυπα: Το πιο σημαντικό πρότυπο, φυσικά, συνεπάγεται την ίδια τη γλώσσα. Υπάρχουν πολλές λύσεις τύπου "SQL", ...
Το Master της εφαρμογής του YARN στο Hadoop - dummies
Χάρτες κατευθείαν στην εφαρμογή Master. Στην ουσία, αυτό είναι το έργο που έκανε το JobTracker για κάθε εφαρμογή, αλλά η εφαρμογή είναι ριζικά διαφορετική. Κάθε εφαρμογή που εκτελείται στο σύμπλεγμα Hadoop έχει τη δική του, αποκλειστική εφαρμογή Application Master, η οποία στην πραγματικότητα τρέχει σε ...
Η φάση ανακατάταξης της ροής εφαρμογών MapReduce του Hadoop - dummies
Μετά τη φάση Χάρτη και πριν από την έναρξη της Η μείωση της φάσης είναι μια διαδικασία μεταβίβασης, γνωστή ως ανακατάταξη και ταξινόμηση. Εδώ, τα δεδομένα από τις εργασίες χαρτογράφησης προετοιμάζονται και μετακινούνται στους κόμβους όπου θα εκτελούνται οι εργασίες μειωτή. Όταν ολοκληρωθεί η εργασία χαρτογράφησης, τα αποτελέσματα ταξινομούνται ανά κλειδί, χωρισμένα εάν ...
Όταν το HBase αισθάνεται για σας; - ανδρείκελα
Έτσι, πότε θα πρέπει να εξετάσετε τη χρήση του HBase; Αν και η απάντηση σε αυτή την ερώτηση δεν είναι απαραιτήτως απλή για όλους, για αρχάριους πρέπει σαφώς να έχετε μια μεγάλη απαίτηση δεδομένων και επαρκείς πόρους υλικού. Μια μεγάλη απαίτηση δεδομένων: Terabytes σε petabytes- διαφορετικά θα έχετε πολλούς διακομιστές σε αδράνεια στα ράφια σας. Επαρκείς πόροι υλικού: Πέντε servers ...
Διαχειριστής κόμβου του YARN στο Hadoop - dummies
Κάθε κόμβος υποκλοπής σε άλλο διαμεσολαβητή πόρων (YARN) , η οποία ενεργεί ως σκλάβος του Διαχειριστή Πόρων. Όπως και με το TaskTracker, κάθε κόμβος υποτελούς έχει μια υπηρεσία που το συνδέει με την υπηρεσία επεξεργασίας (Node Manager) και την υπηρεσία αποθήκευσης (DataNode) που επιτρέπει στο Hadoop να είναι ένα κατανεμημένο σύστημα. ...
Παρακολούθηση JobTracker και TaskTracker σε Hadoop 1 - dummies
MapReduce επεξεργασίας στο Hadoop 1 χειρίζεται το JobTracker και το TaskTracker δαίμονες. Το JobTracker διατηρεί μια άποψη για όλους τους διαθέσιμους πόρους επεξεργασίας στο σύμπλεγμα Hadoop και, καθώς οι αιτήσεις εφαρμογής εισέρχονται, προγραμματίζει και τις μεταφέρει στους κόμβους TaskTracker για εκτέλεση. Δεδομένου ότι οι εφαρμογές εκτελούνται, το JobTracker λαμβάνει ενημερώσεις κατάστασης από ...
Caching δεδομένων υψηλής ταχύτητας με NoSQL - dummies
Με NoSQL, έχετε προσωρινή αποθήκευση δεδομένων υψηλής ταχύτητας. Φανταστείτε ότι είστε ένας τραπεζίτης με τρεις άλλους συναδέλφους που εργάζονται. Ο καθένας έχει μια σειρά ανθρώπων που πρέπει να εξυπηρετηθούν. Ένας από τους πελάτες, πάντως, συνεχίζει να παραμένει σε γραμμή για να ρωτήσει εάν η επιταγή του έχει ήδη εξαργυρωθεί και το ποσό που πιστώθηκε στο λογαριασμό του. Όταν ...
Πώς να επικοινωνούν τα στατιστικά στοιχεία από τα μεγάλα δεδομένα - ανδρείκελα
Τα μεγάλα δεδομένα μπορούν να σας βοηθήσουν να αποκτήσετε γνώση. Οι επιχειρήσεις αποκτούν ανταγωνιστικό πλεονέκτημα όταν οι σωστές πληροφορίες παραδίδονται στους κατάλληλους ανθρώπους την κατάλληλη στιγμή. Αυτό σημαίνει την εξαγωγή γνώσεων και πληροφοριών από τα δεδομένα και την επικοινωνία τους με τους υπεύθυνους για τη λήψη αποφάσεων με τρόπο που θα κατανοήσουν εύκολα. Μετά από όλα, οι άνθρωποι είναι λιγότερο πιθανό να ενεργούν αν ...
Μετάβαση από μοντέλο RDBMS σε HBase - ανδρείκελα
Αν αντιμετωπίζετε τη φάση σχεδιασμού για την εφαρμογή σας και πιστεύετε ότι το HBase θα είναι μια καλή εφαρμογή, τότε σχεδιάζοντας τα κλειδιά και το σχήμα των γραμμών σας για να ταιριάζει στο μοντέλο δεδομένων HBase και η αρχιτεκτονική είναι η σωστή προσέγγιση. Ωστόσο, μερικές φορές έχει νόημα να μεταφέρετε μια βάση δεδομένων που σχεδιάστηκε αρχικά για ένα RDBMS στο HBase. A ...
Παράθυρο σε HiveQL - dummies
Η έννοια της παράθυρο, που εισήχθη στο πρότυπο SQL: 2003, επιτρέπει στον προγραμματιστή SQL να δημιουργήσει πλαισίου από τα δεδομένα με τα οποία μπορούν να λειτουργήσουν οι συναρτήσεις και άλλες λειτουργίες παραθύρων. Η εφαρμογή HiveQL υποστηρίζει τώρα το παράθυρο ανά πρότυπο SQL. Παραδείγματα είναι αρκετά χρήσιμα όταν εξηγούμε τις λειτουργίες παραθύρου και συναθροίσεων. Οι καθυστερήσεις αναχώρησης έρχονται με την επικράτεια κατά την πτήση ...
Πρόσβαση πλήκτρων υψηλής ταχύτητας με NoSQL - dummies
Μπορείτε να χρησιμοποιήσετε διάφορες τεχνικές για να μεγιστοποιήσετε αυτήν την ταχύτητα, από δεδομένα κρυφής μνήμης, έως πολλαπλά αντίγραφα δεδομένων ή χρησιμοποιώντας τις καταλληλότερες δομές αποθήκευσης. Αποθήκευση δεδομένων στη μνήμη Δεδομένου ότι τα δεδομένα είναι εύκολα προσπελάσιμα όταν αποθηκεύονται σε μνήμη τυχαίας προσπέλασης (RAM), επιλέγοντας ένα αποθηκευτικό κλειδί αξίας ...
Πώς να αναπτύξετε ένα καλά οργανωμένο και ασφαλές περιβάλλον μεγάλων δεδομένων - ανδρείκελα
Και μια καλά κυβερνημένη προσέγγιση στην ασφάλεια μπορεί να επιτύχει να μετριάσει πολλούς κινδύνους για την ασφάλεια. Πρέπει να αναπτύξετε ένα ασφαλές μεγάλο περιβάλλον δεδομένων. Ένα πράγμα που μπορείτε να κάνετε είναι να αξιολογήσετε την τρέχουσα κατάσταση σας. Σε ένα μεγάλο περιβάλλον δεδομένων, η ασφάλεια αρχίζει με την αξιολόγηση της τρέχουσας κατάστασής σας. Ένα καλό μέρος για να ξεκινήσετε είναι ...
Πώς να ελέγξετε μεταβλητή σειρά σε μια ομάδα δεδομένων - Dummies
Η σειρά των μεταβλητών (στήλες) είναι συνήθως απλώς θέμα του πώς ήταν διατεταγμένα στο αρχείο προέλευσης ή στο ερώτημα βάσης δεδομένων που χρησιμοποιήθηκε για την εισαγωγή τους. Η ρύθμιση αυτή μπορεί να μην είναι βολική για εσάς. Αν έχετε πολλές μεταβλητές, ίσως είναι δύσκολο να εντοπίσετε εκείνες που θέλετε ...
Πώς να αποκτήσετε δεδομένα από το KNIME - dummies
Το πρώτο σας βήμα με τα δεδομένα είναι στον τόπο όπου πρέπει να είναι. Οι μορφές κειμένου είναι κοινές και πιθανότατα να τις συναντάτε συχνά. Ένα από τα πιο συνηθισμένα είναι το κείμενο με τιμή διαχωρισμού με κόμμα (.Csv). KNIME. com AG είναι μια μικρή εταιρεία λογισμικού και υπηρεσιών επικεντρωμένη στα δεδομένα ...
Πώς να πάρει δεδομένα από Orange - dummies
Το εργαστήριο βιοπληροφορικής της Σχολής Πληροφορικής Η Λουμπλιάνα της Σλοβενίας αναπτύσσει την Orange σε συνεργασία με μια κοινότητα ανοιχτού κώδικα. Για να ανοίξετε τα δείγματα δεδομένων σε πορτοκαλί, ακολουθήστε τα παρακάτω βήματα:
Πώς να αποκτήσετε δεδομένα από το RapidMiner - dummies
Το RapidMiner είναι μια μικρή εταιρεία λογισμικού και υπηρεσιών επικεντρωμένη στην εξόρυξη δεδομένων. Προσφέρει ένα προϊόν εξόρυξης δεδομένων με μια διεπαφή οπτικού προγραμματισμού. Για να ανοίξετε τα δείγματα δεδομένων στο RapidMiner, ακολουθήστε τα εξής βήματα:
Πώς να πάρει τα δεδομένα από Weka - dummies
Μέλη του διδακτικού προσωπικού της Waikato αναπτύσσουν εργαλεία ως μέρος της εργασίας τους προς την πρόοδο του τομέα της μηχανικής μάθησης. Αυτά τα εργαλεία χρησιμοποιούνται στη διδασκαλία, στους επιστήμονες και στη βιομηχανία. Το Weka είναι το γενικό εργαλείο εξόρυξης δεδομένων που προσφέρει ένα περιβάλλον οπτικού προγραμματισμού και ένα ευρύ φάσμα δυνατοτήτων ανάλυσης. Το MOA είναι για εξόρυξη σε πραγματικό χρόνο ...
Χειρισμός διαμερισμάτων σε NoSQL - dummies
Η διαίρεση λέξης χρησιμοποιείται για δύο διαφορετικές έννοιες στη γη NoSQL. Ένα διαμέρισμα δεδομένων είναι ένας μηχανισμός που εξασφαλίζει ότι τα δεδομένα είναι ομοιόμορφα κατανεμημένα σε ένα σύμπλεγμα. Από την άλλη πλευρά, ένα διαμέρισμα δικτύου εμφανίζεται όταν δύο μέρη του ίδιου συμπλέγματος βάσεων δεδομένων δεν μπορούν να επικοινωνήσουν. Σε πολύ μεγάλα συσσωματωμένα συστήματα, είναι όλο και πιο πιθανό ότι ...