Βίντεο: How to Install Hadoop on Windows 2024
Hadoop είναι ένα εργαλείο επεξεργασίας δεδομένων ανοικτού κώδικα το οποίο αναπτύχθηκε από το Apache Software Foundation. Το Hadoop είναι σήμερα το go-to πρόγραμμα για το χειρισμό τεράστιων όγκων και ποικιλιών δεδομένων, επειδή σχεδιάστηκε για να κάνει μεγάλης κλίμακας υπολογιστές πιο προσιτό και ευέλικτο. Με την άφιξη του Hadoop, η μαζική επεξεργασία δεδομένων εισήχθη σε σημαντικά περισσότερους ανθρώπους και περισσότερους οργανισμούς.
Η Hadoop μπορεί να σας προσφέρει μια εξαιρετική λύση για να χειριστείτε, να επεξεργαστείτε και να ομαδοποιήσετε μαζικές ροές δομημένων, ημιδομημένων και αδόμητων δεδομένων. Με τη δημιουργία και την ανάπτυξη του Hadoop, έχετε έναν σχετικά προσιτό τρόπο να αρχίσετε να χρησιμοποιείτε και να αντλείτε ιδέες από όλα τα δεδομένα του οργανισμού σας, αντί να συνεχίζετε να βασίζεστε αποκλειστικά σε αυτό το σύνολο δεδομένων συναλλαγών που κάνατε κάπου σε μια παλιά αποθήκη δεδομένων.
Το Hadoop είναι ένα από τα πιο δημοφιλή προγράμματα που διατίθενται για μεγάλες απαιτήσεις υπολογιστών. Hadoop παρέχει ένα στρώμα map-and-reduce που είναι σε θέση να χειριστεί τις απαιτήσεις επεξεργασίας δεδομένων των περισσότερων μεγάλων έργων δεδομένων.
Μερικές φορές τα δεδομένα γίνονται πολύ μεγάλα και γρήγορα για να το χειριστεί ο Hadoop. Σε αυτές τις περιπτώσεις, οι οργανισμοί στρέφονται προς εναλλακτικές, πιο προσαρμοσμένες υλοποιήσεις MapReduce.
Hadoop χρησιμοποιεί συστοιχίες υλικού υλικού για την αποθήκευση δεδομένων. Το υλικό σε κάθε σύμπλεγμα είναι συνδεδεμένο και αυτό το υλικό αποτελείται από διακομιστές εμπορευμάτων - γενικοί διακομιστές χαμηλού κόστους, χαμηλής απόδοσης που προσφέρουν ισχυρές δυνατότητες υπολογιστικής όταν εκτελούνται παράλληλα σε κοινόχρηστο σύμπλεγμα. Αυτοί οι διακομιστές βασικών προϊόντων καλούνται επίσης κόμβοι . Το Commoditized computing μειώνει δραματικά το κόστος που συνεπάγεται ο χειρισμός και η αποθήκευση μεγάλων δεδομένων.
Ένα κατανεμημένο πλαίσιο επεξεργασίας:-
Hadoop χρησιμοποιεί το Hadoop MapReduce ως το κατανεμημένο πλαίσιο επεξεργασίας του. Και πάλι, ένα κατανεμημένο πλαίσιο επεξεργασίας είναι ένα ισχυρό πλαίσιο όπου οι εργασίες επεξεργασίας διανέμονται μεταξύ συμπλεγμάτων κόμβων έτσι ώστε μεγάλοι όγκοι δεδομένων να μπορούν να επεξεργαστούν πολύ γρήγορα στο σύνολο του συστήματος. Ένα κατανεμημένο σύστημα αρχείων:
-
Hadoop χρησιμοποιεί το Distributed File System (HDFS) ως το κατανεμημένο σύστημα αρχείων του. Οι φόρτοι εργασίας των εφαρμογών που εκτελούνται στον Hadoop διαιρούνται μεταξύ των κόμβων του cluster Hadoop και στη συνέχεια η έξοδος αποθηκεύεται στο HDFS. Το σύμπλεγμα Hadoop μπορεί να αποτελείται από χιλιάδες κόμβους. Για να διατηρήσετε χαμηλές τις διαδικασίες εισόδου / εξόδου (I / O), οι εργασίες Hadoop MapReduce εκτελούνται όσο το δυνατόν πιο κοντά στα δεδομένα.
Αυτό σημαίνει ότι οι επεξεργαστές μειώνουν τις εργασίες είναι τοποθετημένοι όσο το δυνατόν πιο κοντά στα δεδομένα εξερχόμενων εργασιών του χάρτη που πρέπει να επεξεργαστούν. Αυτός ο σχεδιασμός διευκολύνει την ανταλλαγή των υπολογιστικών απαιτήσεων στη μεγάλη επεξεργασία δεδομένων.
Hadoop υποστηρίζει επίσης ιεραρχική οργάνωση. Μερικοί από τους κόμβους του ταξινομούνται ως κύριοι κόμβοι και άλλοι κατηγοριοποιούνται ως σκλάβοι. Η κεντρική υπηρεσία, γνωστή ως
JobTracker , έχει σχεδιαστεί για να ελέγχει διάφορες υπηρεσίες υποτελούς. Οι υπηρεσίες Slave (που ονομάζονται επίσης TaskTrackers ) διανέμονται μία σε κάθε κόμβο. Το JobTracker ελέγχει τους TaskTrackers και εκχωρεί τις εργασίες Hadoop MapReduce σε αυτές. Σε μια νεότερη έκδοση του Hadoop, γνωστή ως Hadoop 2, προστέθηκε ένας διαχειριστής πόρων που ονομάζεται Hadoop YARN. Όσον αφορά το MapReduce στο Hadoop, το YARN λειτουργεί ως ένα ολοκληρωμένο σύστημα που εκτελεί λειτουργίες διαχείρισης πόρων και προγραμματισμού.
Hadoop επεξεργάζεται δεδομένα σε παρτίδα. Συνεπώς, αν εργάζεστε με δεδομένα ροής σε πραγματικό χρόνο, δεν θα μπορείτε να χρησιμοποιήσετε τον Hadoop για να χειριστείτε τα μεγάλα ζητήματα δεδομένων σας. Αυτό είπε, είναι πολύ χρήσιμο για την επίλυση πολλών άλλων τύπων μεγάλων προβλημάτων δεδομένων.