Βίντεο: Big Data (Μεγάλα Δεδομένα): Προκλήσεις και Υποσχέσεις | Minos Garofalakis | TEDxChania 2024
Η εξόρυξη δεδομένων περιλαμβάνει τη διερεύνηση και την ανάλυση μεγάλων ποσοτήτων δεδομένων για την εύρεση προτύπων για μεγάλα δεδομένα. Οι τεχνικές προέκυψαν από τα πεδία των στατιστικών και της τεχνητής νοημοσύνης (AI), με μια μικρή διαχείριση της βάσης δεδομένων που ρίχτηκε στο μίγμα.
Γενικά, ο στόχος της εξόρυξης δεδομένων είναι είτε ταξινόμηση είτε πρόβλεψη. Κατά την ταξινόμηση, η ιδέα είναι να ταξινομήσετε τα δεδομένα σε ομάδες. Για παράδειγμα, ένας έμπορος μπορεί να ενδιαφέρεται για τα χαρακτηριστικά εκείνων που απάντησαν έναντι του ποιος δεν ανταποκρίθηκε σε μια προσφορά.
Πρόκειται για δύο κατηγορίες. Στην πρόβλεψη, η ιδέα είναι να προβλέψουμε την αξία μιας συνεχούς μεταβλητής. Για παράδειγμα, ένας έμπορος μπορεί να ενδιαφέρεται να προβλέψει όσους θα ανταποκρίνονται σε μια προσφορά.
Οι τυπικοί αλγόριθμοι που χρησιμοποιούνται στην εξόρυξη δεδομένων περιλαμβάνουν τα εξής:
-
Δέντρα ταξινόμησης: Μια δημοφιλής τεχνική εξόρυξης δεδομένων που χρησιμοποιείται για την ταξινόμηση μιας εξαρτώμενης κατηγορικής μεταβλητής βάσει μετρήσεων μιας ή περισσοτέρων προγνωστικών μεταβλητών. Το αποτέλεσμα είναι ένα δέντρο με κόμβους και συνδέσμους μεταξύ των κόμβων που μπορούν να διαβαστούν για να σχηματίσουν if-then κανόνες.
-
Λογιστική παλινδρόμηση: Μια στατιστική τεχνική που είναι μια παραλλαγή της τυποποιημένης παλινδρόμησης αλλά επεκτείνει την έννοια για την ταξινόμηση. Παράγει έναν τύπο που προβλέπει την πιθανότητα εμφάνισης ως συνάρτηση των ανεξάρτητων μεταβλητών.
-
Νευρωνικά δίκτυα: Ένας αλγόριθμος λογισμικού που μοντελοποιείται μετά την παράλληλη αρχιτεκτονική των ζωικών εγκεφάλων. Το δίκτυο αποτελείται από κόμβους εισόδου, κρυφά στρώματα και κόμβους εξόδου. Κάθε μονάδα έχει εκχωρηθεί βάρος. Τα δεδομένα δίδονται στον κόμβο εισόδου και με ένα σύστημα δοκιμής και σφάλματος, ο αλγόριθμος ρυθμίζει τα βάρη μέχρι να πληροί ορισμένα κριτήρια στάσης. Κάποιοι άνθρωποι έχουν παρομοιαστεί με μια προσέγγιση με μαύρο κουτί.
-
Τεχνικές ομαδοποίησης όπως οι Κ-πλησιέστεροι γείτονες: Μια τεχνική που προσδιορίζει ομάδες παρόμοιων αρχείων. Η τεχνική K-πλησιέστερη γειτονιά υπολογίζει τις αποστάσεις μεταξύ της εγγραφής και των σημείων στα ιστορικά (εκπαιδευτικά) δεδομένα. Στη συνέχεια αναθέτει αυτό το αρχείο στην κλάση του πλησιέστερου γείτονα σε ένα σύνολο δεδομένων.
Ακολουθεί ένα παράδειγμα δομής ταξινόμησης. Εξετάστε την περίπτωση όπου μια τηλεφωνική εταιρεία θέλει να καθορίσει ποιοι οικιακοί πελάτες ενδέχεται να αποσυνδέσουν την υπηρεσία τους.
Η τηλεφωνική εταιρεία έχει πληροφορίες που περιλαμβάνουν τα εξής χαρακτηριστικά: πόσο καιρό το άτομο έχει την υπηρεσία, πόσο ξοδεύει για την υπηρεσία, αν η υπηρεσία ήταν προβληματική, αν έχει το καλύτερο σχέδιο κλήσης που χρειάζεται, τις ηλικίες, το ηλικιακό της βάρος, το κατά πόσον έχει άλλες υπηρεσίες συνδυασμένες, ανταγωνιστικές πληροφορίες σχετικά με άλλα σχέδια αερομεταφορέων και εάν έχει ακόμη την υπηρεσία.
Φυσικά, μπορείτε να βρείτε πολλά ακόμα χαρακτηριστικά από αυτό. Το τελευταίο χαρακτηριστικό είναι η μεταβλητή των αποτελεσμάτων. αυτό είναι που το λογισμικό θα χρησιμοποιήσει για να ταξινομήσει τους πελάτες σε μία από τις δύο ομάδες - ίσως αποκαλούμενες παραμένοντες και κινδύνους πτήσεων.
Το σύνολο δεδομένων χωρίζεται σε δεδομένα εκπαίδευσης και σε σύνολο δεδομένων δοκιμών. Τα δεδομένα κατάρτισης συνίστανται σε παρατηρήσεις (αποκαλούμενα χαρακτηριστικά) και σε μια μεταβλητή έκβασης (δυαδική στην περίπτωση ενός μοντέλου ταξινόμησης) - στην περίπτωση αυτή, οι παραμένοντες ή οι κίνδυνοι πτήσης.
Ο αλγόριθμος τρέχει πάνω από τα δεδομένα εκπαίδευσης και έρχεται με ένα δέντρο που μπορεί να διαβαστεί σαν μια σειρά κανόνων. Για παράδειγμα, εάν οι πελάτες ήταν με την εταιρεία για περισσότερα από δέκα χρόνια και είναι άνω των 55 ετών, είναι πιθανό να παραμείνουν πιστοί πελάτες.
Αυτοί οι κανόνες στη συνέχεια τρέχουν πάνω από το σετ δεδομένων δοκιμής για να καθορίσουν πόσο καλό είναι αυτό το μοντέλο σε "νέα δεδομένα. "Παρέχονται μέτρα ακρίβειας για το μοντέλο. Για παράδειγμα, μια δημοφιλής τεχνική είναι η μήτρα συγχύσεων. Αυτός ο πίνακας είναι ένας πίνακας που παρέχει πληροφορίες σχετικά με το πόσες περιπτώσεις ήταν σωστά και δεν ταξινομήθηκαν σωστά.
Εάν το μοντέλο φαίνεται καλό, μπορεί να χρησιμοποιηθεί σε άλλα δεδομένα, καθώς είναι διαθέσιμο (δηλαδή, χρησιμοποιώντας το για να προβλέψει νέες περιπτώσεις κινδύνου πτήσης). Με βάση το μοντέλο, η εταιρεία μπορεί να αποφασίσει, για παράδειγμα, να στείλει ειδικές προσφορές σε εκείνους τους πελάτες τους οποίους θεωρεί ότι είναι κίνδυνοι πτήσεων.