Βίντεο: Επιπλο-Συνθέσεις ι. γκιαούρης 2024
Το Pig Latin είναι η γλώσσα για τα προγράμματα Pig. Το Pig μεταφράζει τη δέσμη λατινικών Pig σε εργασίες MapReduce που μπορούν να εκτελεστούν μέσα στο σύμπλεγμα Hadoop. Όταν έρχονται με το Pig Latin, η ομάδα ανάπτυξης ακολούθησε τρεις βασικές αρχές σχεδιασμού:
-
Κρατήστε το απλό . Το Pig Latin παρέχει μια βελτιωμένη μέθοδο αλληλεπίδρασης με το Java MapReduce. Είναι μια αφαίρεση, με άλλα λόγια, που απλοποιεί τη δημιουργία παράλληλων προγραμμάτων στο σύμπλεγμα Hadoop για ροές δεδομένων και ανάλυση. Οι σύνθετες εργασίες μπορεί να απαιτούν μια σειρά αλληλένδετων μετασχηματισμών δεδομένων - οι σειρές αυτές κωδικοποιούνται ως ακολουθίες ροής δεδομένων .
Το γράψιμο των μετασχηματισμών δεδομένων και των ροών ως γραφήματα Pig Latin αντί των προγραμμάτων Java MapReduce καθιστά αυτά τα προγράμματα ευκολότερα για γράψιμο, κατανόηση και συντήρηση επειδή α) δεν χρειάζεται να γράψετε την εργασία σε Java, b) δεν χρειάζεται να σκεφτείτε από την άποψη του MapReduce και γ) δεν χρειάζεται να βρείτε προσαρμοσμένο κώδικα για την υποστήριξη πλούσιων τύπων δεδομένων.
Το λατινικό χοίρο παρέχει μια απλούστερη γλώσσα για να εκμεταλλευτεί το σύμπλεγμα Hadoop, διευκολύνοντας έτσι περισσότερους ανθρώπους να εκμεταλλευτούν τη δύναμη του Hadoop και να γίνουν παραγωγικοί νωρίτερα.
-
Κάντε το έξυπνο. Μπορείτε να θυμηθείτε ότι ο Pig Latin Compiler κάνει το έργο της μετατροπής ενός προγράμματος Pig Latin σε μια σειρά εργασιών Java MapReduce. Το τέχνασμα είναι να βεβαιωθείτε ότι ο μεταγλωττιστής μπορεί να βελτιστοποιήσει αυτόματα την εκτέλεση αυτών των εργασιών Java MapReduce, επιτρέποντας στον χρήστη να εστιάσει στη σημασιολογία παρά στον τρόπο βελτιστοποίησης και πρόσβασης στα δεδομένα.
Για εσάς οι τύποι SQL εκεί έξω, αυτή η συζήτηση θα ακούγεται οικεία. Η SQL έχει ρυθμιστεί ως δηλωτικό ερώτημα που χρησιμοποιείτε για την πρόσβαση σε δομημένα δεδομένα που είναι αποθηκευμένα σε ένα RDBMS. Ο μηχανισμός RDBMS μεταφράζει πρώτα το ερώτημα σε μια μέθοδο πρόσβασης δεδομένων και στη συνέχεια εξετάζει τα στατιστικά στοιχεία και δημιουργεί μια σειρά προσεγγίσεων πρόσβασης δεδομένων. Ο βελτιστοποιητής βάσει κόστους επιλέγει την πιο αποτελεσματική προσέγγιση εκτέλεσης.
-
Μην περιορίζετε την ανάπτυξη. Κάντε το Pig να είναι επεκτάσιμο έτσι ώστε οι προγραμματιστές να μπορούν να προσθέτουν λειτουργίες για την αντιμετώπιση των ιδιαίτερων επιχειρηματικών προβλημάτων τους.
Οι παραδοσιακές αποθήκες δεδομένων RDBMS κάνουν χρήση του προτύπου επεξεργασίας δεδομένων ETL, όπου e xtract δεδομένα από εξωτερικές πηγές, t μετατρέπουν αυτό ώστε να ταιριάζουν στις επιχειρησιακές σας ανάγκες και στη συνέχεια < > l το φτάνει στο τελικό στόχο, είτε πρόκειται για λειτουργικό αποθηκευτικό χώρο δεδομένων, αποθήκη δεδομένων είτε για άλλη παραλλαγή της βάσης δεδομένων. Εντούτοις, με τα μεγάλα δεδομένα, συνήθως θέλετε να μειώσετε την ποσότητα των δεδομένων που έχετε μετακομίσει, οπότε καταλήγετε να μεταφέρετε την επεξεργασία στα ίδια τα δεδομένα.
E Εξάγουμε τα δεδομένα από τις διάφορες πηγές σας, l oad σε HDFS και, στη συνέχεια, t μετατρέψτε το ως είναι απαραίτητο για την προετοιμασία των δεδομένων για περαιτέρω ανάλυση.