Βίντεο: How to Install Hadoop on Windows 2024
Καινοτομίες μηχανών αναζήτησης όπως το Yahoo! και η Google αντιμετώπισε πρόβλημα με τα δεδομένα των τσουνάμι. Πρέπει να βρουν έναν τρόπο να κατανοήσουν τα τεράστια ποσά των δεδομένων που συλλέγουν οι κινητήρες τους. Αυτές οι εταιρείες χρειάστηκαν να καταλάβουν τι πληροφορίες συγκέντρωναν και πώς θα μπορούσαν να αποκομίσουν κέρδος από αυτά τα δεδομένα για να υποστηρίξουν το επιχειρηματικό μοντέλο τους.
Η Hadoop αναπτύχθηκε επειδή αντιπροσωπεύει τον πιο ρεαλιστικό τρόπο που επιτρέπει στις εταιρείες να διαχειρίζονται τεράστιους όγκους δεδομένων εύκολα. Ο Hadoop επέτρεψε τα μεγάλα προβλήματα να αναλυθούν σε μικρότερα στοιχεία, ώστε η ανάλυση να μπορεί να γίνει γρήγορα και οικονομικά.
Με το σπάσιμο του μεγάλου προβλήματος δεδομένων σε μικρά κομμάτια που θα μπορούσαν να επεξεργαστούν παράλληλα, μπορείτε να επεξεργαστείτε τις πληροφορίες και να ανασυγκροτήσετε τα μικρά κομμάτια για να παρουσιάσετε τα αποτελέσματα.
Hadoop χτίστηκε αρχικά από ένα Yahoo! μηχανικός που ονομάζεται Doug Cutting και είναι πλέον ένα έργο ανοιχτού κώδικα που διαχειρίζεται το Apache Software Foundation. Διατίθεται υπό την άδεια Apache v2. 0.
Hadoop είναι ένα θεμελιώδες δομικό στοιχείο στην επιθυμία μας να καταγράψουμε και να επεξεργαστούμε μεγάλα δεδομένα. Το Hadoop έχει σχεδιαστεί για να παραλληλίζει την επεξεργασία δεδομένων σε υπολογιστικούς κόμβους με υπολογιστές ταχύτητας και να κρύβει καθυστέρηση. Στον πυρήνα του, ο Hadoop έχει δύο κύρια στοιχεία:
-
Κατανεμημένο Σύστημα αρχείων Hadoop: Ένα αξιόπιστο, υψηλού εύρους ζώνης, χαμηλού κόστους, cluster αποθήκευσης δεδομένων που διευκολύνει τη διαχείριση σχετικών αρχείων σε όλα τα μηχανήματα.
-
Μηχανισμός MapReduce: Μια παράλληλη / κατανεμημένη εφαρμογή επεξεργασίας δεδομένων υψηλής απόδοσης του αλγορίθμου MapReduce.
Το Hadoop έχει σχεδιαστεί για να επεξεργάζεται τεράστιες ποσότητες δομημένων και μη δομημένων δεδομένων (terabytes σε petabytes) και εφαρμόζεται σε ράφια διακομιστών βασικών προϊόντων ως cluster Hadoop. Οι διακομιστές μπορούν να προστεθούν ή να αφαιρεθούν από το σύμπλεγμα δυναμικά επειδή ο Hadoop έχει σχεδιαστεί για να είναι αυτοθεραπευμένος. "Με άλλα λόγια, ο Hadoop είναι σε θέση να ανιχνεύει αλλαγές, συμπεριλαμβανομένων αποτυχιών, και να προσαρμόζεται στις αλλαγές αυτές και να συνεχίζει να λειτουργεί χωρίς διακοπή.