Βασικά στοιχεία των Κ-μέσων και των μοντέλων συμπλέγματος DBSCAN για προγνωστικό Analytics - ανδρείκελα

Βίντεο: Psywar - Ντοκιμαντέρ για την προπαγάνδα 2024

Η μη εποπτευόμενη μάθηση έχει πολλές προκλήσεις για την προγνωστική ανάλυση - συμπεριλαμβανομένης της μη γνώσης του τι να περιμένετε όταν τρέχετε έναν αλγόριθμο. Κάθε αλγόριθμος παράγει διαφορετικά αποτελέσματα. ποτέ δεν θα είστε σίγουροι αν ένα αποτέλεσμα είναι καλύτερο από το άλλο - ή ακόμα και αν το αποτέλεσμα έχει οποιαδήποτε αξία.

Όταν γνωρίζετε ποια θα είναι τα αποτελέσματα, μπορείτε να τροποποιήσετε τους αλγόριθμους για να παράγετε τα επιθυμητά αποτελέσματα. Σε πραγματικά σύνολα δεδομένων, δεν θα έχετε αυτήν την πολυτέλεια. Θα πρέπει να εξαρτάται από κάποια προηγούμενη γνώση των δεδομένων - ή τη διαίσθηση - για να αποφασίσετε ποιες παραμέτρους και αλγόριθμους αρχικοποίησης θα χρησιμοποιηθούν κατά τη δημιουργία του μοντέλου σας.

Ωστόσο, σε πραγματικές εργασίες χωρίς επίβλεψη, αυτές οι προηγούμενες γνώσεις δεν είναι διαθέσιμες και το επιθυμητό αποτέλεσμα είναι δύσκολο να βρεθεί. Η επιλογή του σωστού αριθμού συμπλεγμάτων είναι το βασικό πρόβλημα. Αν τυχαίνει να σκοντάφτετε τον σωστό αριθμό συμπλεγμάτων, τα δεδομένα σας θα αποδώσουν πληροφορίες που μπορείτε να κάνετε πολύ ακριβείς προβλέψεις. Από την άλλη πλευρά, η μαντέψουν τον λάθος αριθμό ομάδων μπορεί να αποδώσει αποτελέσματα.

Ο αλγόριθμος K-μέσων είναι μια καλή επιλογή για σύνολα δεδομένων που έχουν μικρό αριθμό συστάδων με αναλογικά μεγέθη και γραμμικά διαχωρίσιμα δεδομένα - και μπορείτε να τα χρησιμοποιήσετε για να χρησιμοποιήσετε τον αλγόριθμο σε πολύ μεγάλα σύνολα δεδομένων.

Σκεφτείτε γραμμικά διαχωρίσιμα δεδομένα ως ένα σωρό σημεία σε ένα γράφημα που μπορεί να διαχωριστεί χρησιμοποιώντας μια ευθεία γραμμή. Εάν τα δεδομένα δεν είναι γραμμικά διαχωρίσιμα, θα πρέπει να χρησιμοποιηθούν πιο προηγμένες εκδόσεις των μέσων Κ - οι οποίες θα γίνουν ακριβότερες υπολογιστικά και ενδέχεται να μην είναι κατάλληλες για πολύ μεγάλα σύνολα δεδομένων. Στην τυποποιημένη εφαρμογή της, η πολυπλοκότητα για τον υπολογισμό των κέντρων και των αποστάσεων συμπλέγματος είναι χαμηλή.

Το K-means χρησιμοποιείται ευρέως για την επίλυση μεγάλων προβλημάτων δεδομένων επειδή είναι απλό στη χρήση, αποτελεσματικό και εξαιρετικά επεκτάσιμο. Δεν υπάρχει αμφιβολία ότι οι περισσότεροι εμπορικοί πωλητές χρησιμοποιούν τον αλγόριθμο Κ-μέσων ως βασικό στοιχείο των προγνωστικών πακέτων αναλυτικών στοιχείων.

Η εφαρμογή DBSCAN (χωροταξική χωροταξική συσσώρευση εφαρμογών με θόρυβο) στην εφαρμογή scikit-learn δεν απαιτεί παραμέτρους αρχικοποίησης που ορίζονται από το χρήστη για τη δημιουργία μιας παρουσίας. Μπορείτε να αντικαταστήσετε τις προεπιλεγμένες παραμέτρους κατά την αρχικοποίηση αν θέλετε. Δυστυχώς, εάν χρησιμοποιείτε τις προεπιλεγμένες παραμέτρους, ο αλγόριθμος δεν μπορεί να δώσει μια στενή αντιστοιχία με το επιθυμητό αποτέλεσμα.

Το DBSCAN είναι πιο κατάλληλο για σύνολα δεδομένων που έχουν δυσανάλογα μεγέθη συμπλέγματος και των οποίων τα δεδομένα μπορούν να διαχωριστούν με μη γραμμικό τρόπο.Όπως το K-means, το DBSCAN είναι κλιμακωτό, αλλά η χρήση του σε πολύ μεγάλα σύνολα δεδομένων απαιτεί περισσότερη μνήμη και υπολογιστική ισχύ.