Βίντεο: Hadoop Tutorial: Analyzing Server Logs 2024
Η ανάλυση καταγραφής είναι μια κοινή περίπτωση χρήσης για ένα εναρκτήριο έργο Hadoop. Πράγματι, οι πρώτες χρήσεις του Hadoop αφορούσαν την ανάλυση μεγάλης κλίμακας των καταγραφών clickstream - αρχεία καταγραφής που καταγράφουν δεδομένα σχετικά με τις ιστοσελίδες που επισκέπτονται οι άνθρωποι και με ποια σειρά τους επισκέπτονται.
Όλα τα αρχεία καταγραφής των δεδομένων που παράγονται από την υποδομή πληροφορικής σας συχνά αναφέρονται ως εξάτμιση δεδομένων . Ένα ημερολόγιο είναι ένα υποπροϊόν ενός λειτουργούντος εξυπηρετητή, σαν τον καπνό που προέρχεται από ένα σωλήνα εξάτμισης του κινητήρα. Η εξάτμιση δεδομένων έχει την έννοια της ρύπανσης ή των αποβλήτων και πολλές επιχειρήσεις σίγουρα προσεγγίζουν τέτοιου είδους δεδομένα με αυτή τη σκέψη.
Τα αρχεία καταγραφής συχνά αναπτύσσονται γρήγορα και λόγω των μεγάλων όγκων που παράγονται, μπορεί να είναι κουραστική η ανάλυση. Και, η πιθανή αξία αυτών των δεδομένων είναι συχνά ασαφής. Επομένως, ο πειρασμός στα τμήματα πληροφορικής είναι να αποθηκεύουν αυτά τα δεδομένα καταγραφής για όσο χρόνο είναι λογικά δυνατό. (Σε τελική ανάλυση, κοστίζει χρήματα για τη διατήρηση δεδομένων και αν δεν υπάρχει επιχειρηματική αξία, γιατί να το αποθηκεύσετε;)
Αλλά ο Hadoop αλλάζει τα μαθηματικά: Το κόστος αποθήκευσης δεδομένων είναι συγκριτικά ανέξοδες και ο Hadoop αναπτύχθηκε αρχικά ειδικά για το μεγάλης κλίμακας επεξεργασία των δεδομένων καταγραφής.
Η περίπτωση χρήσης της ανάλυσης δεδομένων των ημερολογίων είναι ένα χρήσιμο μέρος για να ξεκινήσετε το ταξίδι Hadoop, επειδή οι πιθανότητες είναι καλές που τα δεδομένα με τα οποία εργάζεστε να διαγράφονται ή "να πέφτουν στο πάτωμα. "Ορισμένες εταιρείες που καταγράφουν σταθερά μια τετραβάδα (TB) ή περισσότερη δραστηριότητα στον ιστό του πελάτη ανά εβδομάδα απορρίπτουν τα δεδομένα χωρίς ανάλυση (που σας κάνει να αναρωτιέστε γιατί ενοχλήθηκαν για τη συλλογή τους).
Για να ξεκινήσετε γρήγορα, τα δεδομένα σε αυτή τη περίπτωση χρήσης είναι πιθανότατα εύκολα και γενικά δεν καλύπτουν τα ίδια προβλήματα που θα συναντήσετε εάν αρχίσετε το ταξίδι Hadoop με άλλα (κυβερνητικά) δεδομένα.
Τα περισσότερα νοικοκυριά διαθέτουν πλέον έξυπνα μετρητά που καταγράφουν τη χρήση ηλεκτρικής ενέργειας. Τα νεότερα αυτοκίνητα έχουν χιλιάδες αισθητήρες που καταγράφουν πτυχές της κατάστασης και της χρήσης τους. Κάθε κίνηση με κλικ και ποντίκι που πραγματοποιείτε κατά την περιήγηση στο Internet προκαλεί τη δημιουργία μιας σειράς εγγραφών καταγραφής.Κάθε φορά που αγοράζετε κάτι - ακόμα και χωρίς τη χρήση πιστωτικής κάρτας ή χρεωστικής κάρτας - τα συστήματα καταγράφουν τη δραστηριότητα σε βάσεις δεδομένων - και σε αρχεία καταγραφής.Μπορείτε να δείτε μερικές από τις πιο κοινές πηγές δεδομένων ημερολογίου: διακομιστές πληροφορικής, διαδικτυακές πινάκες κλικ, αισθητήρες και συστήματα συναλλαγών.
Κάθε βιομηχανία (καθώς και όλοι οι τύποι αρχείων που μόλις περιγράψαμε) έχουν τεράστιες δυνατότητες για πολύτιμη ανάλυση - ειδικά όταν μπορείτε να μηδενίσετε ένα συγκεκριμένο είδος δραστηριότητας και στη συνέχεια να συσχετίσετε τα ευρήματά σας με ένα άλλο σύνολο δεδομένων για να παράσχετε το πλαίσιο.
Για παράδειγμα, σκεφτείτε αυτήν την τυπική εμπειρία περιήγησης και αγορών με βάση το διαδίκτυο:
Περιηγηθείτε στον ιστότοπο, αναζητώντας αντικείμενα που θέλετε να αγοράσετε.
-
Κάνετε κλικ για να διαβάσετε τις περιγραφές ενός προϊόντος που αγγίζει το μάτι σας.
-
Τελικά, προσθέτετε ένα στοιχείο στο καλάθι αγορών σας και προχωρήστε στο checkout (η ενέργεια αγοράς).
-
Αφού δείτε το κόστος της αποστολής, ωστόσο, αποφασίζετε ότι το στοιχείο δεν αξίζει την τιμή και κλείνετε το παράθυρο του προγράμματος περιήγησης. Κάθε κλικ που κάνατε - και στη συνέχεια σταμάτησε να κάνει - έχει τη δυνατότητα να προσφέρει πολύτιμες πληροφορίες για την εταιρεία πίσω από αυτόν τον ιστότοπο ηλεκτρονικού εμπορίου.
Σε αυτό το παράδειγμα, υποθέστε ότι αυτή η επιχείρηση συλλέγει τα δεδομένα του clickstream (δεδομένα για κάθε κλικ του ποντικιού και προβολή σελίδας που αγγίζει ο επισκέπτης) με στόχο να κατανοήσει πώς να εξυπηρετεί καλύτερα τους πελάτες του. Μία κοινή πρόκληση μεταξύ των επιχειρήσεων ηλεκτρονικού εμπορίου είναι να αναγνωριστούν οι βασικοί παράγοντες πίσω από τα εγκαταλελειμμένα καροτσάκια αγορών. Όταν πραγματοποιείτε βαθύτερη ανάλυση στα δεδομένα του clickstream και εξετάζετε τη συμπεριφορά των χρηστών στον ιστότοπο, τα μοτίβα αναγκάζονται να αναδυθούν.
Γνωρίζει η εταιρεία σας την απάντηση στην φαινομενικά απλή ερώτηση: "Είναι ορισμένα προϊόντα εγκαταλειμμένα περισσότερο από άλλα; "Ή η απάντηση στην ερώτηση," Πόσα έσοδα μπορούν να ανακτηθούν εάν μειώσετε την εγκατάλειψη του καλαθιού κατά 10 τοις εκατό; "Τα παρακάτω δίνουν ένα παράδειγμα των αναφορών που μπορείτε να δείξετε στους ηγέτες των επιχειρήσεων σας για να αναζητήσουν την επένδυσή τους στην αιτία Hadoop.
Για να φτάσετε στο σημείο όπου μπορείτε να δημιουργήσετε τα δεδομένα για να δημιουργήσετε τα γραφικά που εμφανίζονται, απομονώνετε τις συνεδρίες περιήγησης στο web μεμονωμένων χρηστών (διαδικασία γνωστή ως
session ), προσδιορίστε το περιεχόμενο των καλαθιών αγορών τους, και στη συνέχεια καθορίστε την κατάσταση της συναλλαγής στο τέλος της περιόδου σύνδεσης - όλα εξετάζοντας τα δεδομένα του clickstream. Ακολουθεί ένα παράδειγμα του τρόπου συγκέντρωσης των περιόδων περιήγησης ιστού των χρηστών, συγκεντρώνοντας όλα τα κλικ και τις διευθύνσεις URL ανά διεύθυνση IP.
Σε ένα πλαίσιο Hadoop, εργάζεστε πάντα με κλειδιά και τιμές - κάθε φάση των εισόδων MapReduce και εξάγει δεδομένα σε σύνολα κλειδιών και τιμών. Το κλειδί είναι η διεύθυνση IP και η τιμή αποτελείται από τη χρονική σήμανση και τη διεύθυνση URL. Κατά τη διάρκεια της φάσης του χάρτη, οι συνεδρίες χρηστών συναρμολογούνται παράλληλα για όλα τα μπλοκ αρχείων του συνόλου δεδομένων clickstream που είναι αποθηκευμένα στο σύμπλεγμα Hadoop.
Η φάση του χάρτη επιστρέφει αυτά τα στοιχεία:
Η τελευταία σελίδα που επισκέπτεστε
-
Μια λίστα στοιχείων στο καλάθι αγορών
-
Η κατάσταση της συναλλαγής για κάθε περίοδο χρήστη (ευρετηρίαση από το κλειδί διεύθυνσης IP) Ο μειωτής παίρνει αυτά τα αρχεία και εκτελεί συγκεντρωτικά σύνολα για να ολίσσει τον αριθμό και την αξία των καροτσιών που εγκαταλείπονται ανά μήνα και να παρέχει σύνολα των πιο κοινών τελικών σελίδων που είδε κάποιος πριν τελειώσει η περίοδος λειτουργίας του χρήστη.