Βίντεο: Ζωντανή ροή Hmerhsia Veroias 2025
Στον πυρήνα του, το Pig Latin είναι μια γλώσσα ροή δεδομένων , όπου ορίζετε μια ροή δεδομένων και μια σειρά μετασχηματισμών που εφαρμόζονται στα δεδομένα μέσω της αίτησής σας. Αυτό έρχεται σε αντίθεση με μια γλώσσα ροής ελέγχου (όπως C ή Java), όπου γράφετε μια σειρά οδηγιών.
Στις γλώσσες ελέγχου ροής, χρησιμοποιείτε κατασκευές όπως βρόχους και λογική υπό όρους (όπως μια εντολή if). Δεν θα βρείτε βρόχους και αν δηλώσεις στη λατινική γλώσσα.
Αν χρειάζεστε κάποια πειστικά ότι η εργασία με το Pig είναι μια πολύ πιο εύκολη σειρά για να γουρουνάρετε από το να γράφετε Map και Reduce προγράμματα, ξεκινήστε ρίχνοντας μια ματιά σε κάποια πραγματική συνταγή Pig:A = LOAD 'data_file. κείμενο';. Β = ΟΜΑΔΑ …; … C = ΦΙΛΤΡΟ …;. DUMP Β;. ΑΠΟΘΗΚΕΥΣΗ C INTO 'Αποτελέσματα';
Μερικά από τα κείμενα σε αυτό το παράδειγμα μοιάζουν πραγματικά με αγγλικά, σωστά; Δεν είναι πολύ τρομακτικό, τουλάχιστον σε αυτό το σημείο. Κοιτάζοντας κάθε γραμμή με τη σειρά της, μπορείτε να δείτε τη βασική ροή ενός προγράμματος χοίρων. (Σημειώστε ότι αυτός ο κώδικας μπορεί είτε να είναι μέρος ενός σεναρίου είτε να εκδοθεί στο διαδραστικό κέλυφος που ονομάζεται Grunt.)
-
Φόρτωση: Αρχικά φορτώνετε (LOAD) τα δεδομένα που θέλετε να χειριστείτε.
Όπως και σε μια τυπική εργασία MapReduce, τα δεδομένα αποθηκεύονται σε HDFS. Για ένα πρόγραμμα Pig για να έχετε πρόσβαση στα δεδομένα, πρώτα πείτε στο Pig τι είδους αρχείο ή αρχεία πρέπει να χρησιμοποιήσουν. Για αυτήν την εργασία, χρησιμοποιείτε την εντολή LOAD 'data_file'.
Εδώ, το 'data_file' μπορεί να καθορίσει είτε ένα αρχείο HDFS είτε έναν κατάλογο. Εάν οριστεί ένας κατάλογος, όλα τα αρχεία στον κατάλογο αυτό φορτώνονται στο πρόγραμμα.
-
Η λογική μετασχηματισμού είναι εκεί όπου συμβαίνει όλος ο χειρισμός δεδομένων. Εδώ μπορείτε να FILTER τις σειρές που δεν ενδιαφέρουν, JOIN δύο σύνολα αρχείων δεδομένων, τα στοιχεία GROUP για να δημιουργήσετε συγκεντρωτικά, ORDER αποτελέσματα, και να κάνουμε πολλά, πολύ περισσότερα.
-
ή
Αποθηκεύστε
(STORE) τα αποτελέσματα σε ένα αρχείο κάπου. Συνήθως χρησιμοποιείτε την εντολή DUMP για να στείλετε την έξοδο στην οθόνη όταν εντοπίζετε σφάλματα στα προγράμματα. Όταν το πρόγραμμά σας μπαίνει στην παραγωγή, απλώς αλλάζετε την κλήση DUMP σε μια κλήση STORE έτσι ώστε τα αποτελέσματα από την εκτέλεση των προγραμμάτων σας να αποθηκεύονται σε ένα αρχείο για περαιτέρω επεξεργασία ή ανάλυση.