Βίντεο: Εισαγωγή στις Δομές Δεδομένων-Πίνακες 2024
Χρησιμοποιείτε αλγόριθμους ομαδοποίησης για να υποδιαιρέσετε τα σύνολα δεδομένων σας σε συμπλέγματα σημείων δεδομένων που είναι τα περισσότερα παρόμοια για ένα προκαθορισμένο χαρακτηριστικό. Εάν έχετε ένα σύνολο δεδομένων που περιγράφει πολλαπλά χαρακτηριστικά σχετικά με μια συγκεκριμένη λειτουργία και θέλετε να ομαδοποιήσετε τα σημεία δεδομένων σύμφωνα με τις ομοιότητες χαρακτηριστικών τους, τότε χρησιμοποιήστε αλγόριθμους ομαδοποίησης.
Ένα απλό διάγραμμα scatter των συνόλων δεδομένων για τα έσοδα και την εκπαίδευση αποδίδει το γράφημα που βλέπετε εδώ.
Σε μη ομαδοποιημένη ομαδοποίηση, ξεκινάτε με αυτά τα δεδομένα και στη συνέχεια προχωρήστε να τα διαιρέσετε σε υποσύνολα. Αυτά τα υποσύνολα ονομάζονται συμπλέγματα και αποτελούνται από σημεία δεδομένων τα οποία είναι τα περισσότερα παρόμοια μεταξύ τους. Φαίνεται ότι υπάρχουν τουλάχιστον δύο συστάδες, πιθανώς τρία - ένα στο κατώτατο σημείο με χαμηλό εισόδημα και εκπαίδευση, και στη συνέχεια οι χώρες υψηλής εκπαίδευσης μοιάζουν με ίσως να χωρίζονται μεταξύ χαμηλού και υψηλού εισοδήματος.
Το παρακάτω σχήμα δείχνει το αποτέλεσμα ματιού - κάνοντας μια οπτική εκτίμηση των - ομάδων σε αυτό το σύνολο δεδομένων.
Παρόλο που μπορείτε να δημιουργήσετε οπτικές εκτιμήσεις της ομαδοποίησης, μπορείτε να επιτύχετε πολύ πιο ακριβή αποτελέσματα όταν ασχολείστε με πολύ μεγαλύτερα σύνολα δεδομένων χρησιμοποιώντας αλγορίθμους για τη δημιουργία συμπλεγμάτων για εσάς. Η οπτική εκτίμηση είναι μια τραχεία μέθοδος που είναι χρήσιμη μόνο σε μικρότερα σύνολα δεδομένων ελάχιστης πολυπλοκότητας. Αλγόριθμοι - παράγουν ακριβή, επαναλαμβανόμενα αποτελέσματα και μπορείτε να χρησιμοποιήσετε αλγόριθμους για τη δημιουργία συμπλέγματος για πολλαπλές διαστάσεις δεδομένων μέσα στο σύνολο δεδομένων.
Οι αλγόριθμοι ομαδοποίησης είναι ένας τύπος προσέγγισης στην μη επιτηρούμενη μηχανική μάθηση - άλλες προσεγγίσεις περιλαμβάνουν μεθόδους Markov και μέθοδοι για τη μείωση των διαστάσεων. Αλγόριθμοι ομαδοποίησης είναι κατάλληλοι σε περιπτώσεις όπου ισχύουν τα ακόλουθα χαρακτηριστικά:
-
Γνωρίζετε και κατανοείτε το σύνολο δεδομένων που αναλύετε.
-
Πριν εκτελέσετε τον αλγόριθμο ομαδοποίησης, δεν έχετε ακριβή ιδέα για τη φύση των υποσυνόλων (συμπλέγματα). Συχνά, δεν θα γνωρίζετε καν πόσα υποσύνολα υπάρχουν στο σύνολο δεδομένων προτού εκτελέσετε τον αλγόριθμο.
-
Τα υποσύνολα (clusters) καθορίζονται μόνο από το ένα σύνολο δεδομένων που αναλύετε.
-
Ο στόχος σας είναι να προσδιορίσετε ένα μοντέλο που περιγράφει τα υποσύνολα σε ένα σύνολο δεδομένων και μόνο σε αυτό το σύνολο δεδομένων.
Αν προσθέσετε περισσότερα δεδομένα, θα πρέπει να επαναλάβετε την ανάλυση από την αρχή για να έχετε πλήρη και ακριβή αποτελέσματα του μοντέλου.