Βίντεο: Ασκηση 3 - Αλγόριθμος 2024
Σκοπός των αλγορίθμων ομαδοποίησης και ταξινόμησης είναι η κατανόηση και η εξαγωγή της αξίας από μεγάλες σειρές δομημένων και αδόμητων δεδομένων. Αν εργάζεστε με τεράστιους όγκους μη δομημένων δεδομένων, έχει νόημα μόνο να προσπαθήσετε να χωρίσετε τα δεδομένα σε κάποιο είδος λογικών ομαδοποιήσεων πριν προσπαθήσετε να το αναλύσετε.
Η ομαδοποίηση και ταξινόμηση σάς επιτρέπει να τραβήξετε μια μαζική ματιά των δεδομένων σας μαζικά και στη συνέχεια να διαμορφώσετε μερικές λογικές δομές με βάση αυτό που βρίσκετε εκεί πριν προχωρήσετε βαθύτερα στην ανάλυση των παξιμαδιών.
συμπλέγματα είναι σύνολα σημείων δεδομένων που μοιράζονται παρόμοια χαρακτηριστικά και αλγόριθμοι ομαδοποίησης είναι οι μέθοδοι που ομαδοποιούν αυτά τα σημεία δεδομένων σε διαφορετικά συσπειρώσεων με βάση τις ομοιότητές τους. Θα δείτε τους αλγόριθμους ομαδοποίησης που χρησιμοποιούνται για την ταξινόμηση των ασθενειών στην ιατρική επιστήμη, αλλά θα τις δείτε επίσης για την ταξινόμηση των πελατών στην έρευνα μάρκετινγκ και για την εκτίμηση περιβαλλοντικών κινδύνων για την υγεία στην περιβαλλοντική μηχανική.Ιεραρχικοί:
-
Οι αλγόριθμοι δημιουργούν ξεχωριστά σύνολα ενοποιημένων συμπλεγμάτων, το καθένα στο δικό τους ιεραρχικό επίπεδο. Partitional:
-
Οι αλγόριθμοι δημιουργούν μόνο ένα σύνολο ομάδων. Μπορείτε να χρησιμοποιήσετε αλγόριθμους ιεραρχικής ομαδοποίησης μόνο εάν γνωρίζετε ήδη την απόσταση διαχωρισμού μεταξύ των σημείων δεδομένων στο σύνολο δεδομένων σας. Ο k-πλησιέστερος αλγόριθμος γείτονα που περιγράφεται σε αυτό το κεφάλαιο ανήκει στην ιεραρχική κλάση αλγορίθμων ομαδοποίησης.
Από την άλλη πλευρά, όταν χρησιμοποιείτε αλγόριθμους ομαδοποίησης, δεν έχετε προκαθορισμένη έννοια για το πόσα συμπλέγματα είναι κατάλληλα για τα δεδομένα σας και βασίζεστε στους αλγόριθμους ομαδοποίησης για να ταξινομήσετε και να συγκεντρώσετε τα δεδομένα με τον πλέον κατάλληλο τρόπο. Με τις τεχνικές συσσωμάτωσης, μαθαίνετε από τα μη επισημασμένα δεδομένα.
Ωστόσο, για να δείξετε καλύτερα τη φύση της ταξινόμησης, ρίξτε μια ματιά στο Twitter και το σύστημα επισήμανσης κατακερματισμού.Πείτε ότι πήρατε το αγαπημένο σας ποτό σε ολόκληρο τον κόσμο: μια παγωμένη καραμέλα latte από την Starbucks. Είστε τόσο χαρούμενοι που έχετε το ποτό σας που αποφασίζετε να τιτίβετε για αυτό με μια φωτογραφία και τη φράση "Αυτό είναι το καλύτερο latte EVER! #StarbucksRocks. "Φυσικά, συμπεριλαμβάνετε το" #StarbucksRocks "στο tweet σας, έτσι ώστε το tweet να πηγαίνει στο #StarbucksRocks ρεύμα και να ταξινομείται μαζί με όλα τα άλλα tweets που έχουν χαρακτηριστεί ως #StarbucksRocks. Η χρήση από εσάς της ετικέτας hashtag στο tweet σας είπε στο Twitter πώς μπορείτε να ταξινομήσετε τα δεδομένα σας σε μια αναγνωρίσιμη και προσιτή ομάδα ή
σύμπλεγμα .