Βίντεο: What is Inclusive Democracy? Fotopoulos' Interview to Oliver Ressler 2024
A (ή συλλογή δεδομένων) είναι ένα σύνολο αντικειμένων στην ανάλυση πρόβλεψης. Για παράδειγμα, ένα σύνολο εγγράφων είναι ένα σύνολο δεδομένων όπου τα στοιχεία δεδομένων είναι έγγραφα. Ένα σύνολο πληροφοριών χρηστών του κοινωνικού δικτύου (όνομα, ηλικία, λίστα φίλων, φωτογραφίες κ.λπ.) είναι ένα σύνολο δεδομένων όπου τα στοιχεία δεδομένων είναι προφίλ των χρηστών του κοινωνικού δικτύου. Η συγκέντρωση δεδομένων
είναι η διαίρεση ενός συνόλου δεδομένων σε υποσύνολα παρόμοιων στοιχείων. Τα στοιχεία μπορούν επίσης να αναφέρονται ως παρουσίες, παρατηρήσεις, οντότητες ή αντικείμενα δεδομένων. Στις περισσότερες περιπτώσεις, ένα σύνολο δεδομένων αντιπροσωπεύεται σε μορφή πίνακα - ένας πίνακας δεδομένων . Ένας πίνακας δεδομένων είναι ένας πίνακας αριθμών, εγγράφων ή εκφράσεων που αντιπροσωπεύονται σε σειρές και στήλες ως εξής:
-
Οι σειρές μερικές φορές αναφέρονται ως
αντικείμενα, αντικείμενα, παρουσίες ή παρατηρήσεις. Κάθε στήλη αντιπροσωπεύει ένα ιδιαίτερο χαρακτηριστικό ενός στοιχείου.
-
Οι στήλες αναφέρονται ως χαρακτηριστικά ή ιδιότητες
. Η εφαρμογή της συγκέντρωσης δεδομένων σε ένα σύνολο δεδομένων δημιουργεί ομάδες παρόμοιων στοιχείων δεδομένων. Αυτές οι ομάδες ονομάζονται
συμπλέγματα - συλλογές παρόμοιων στοιχείων δεδομένων. έχουν μια ισχυρή και μετρήσιμη σχέση μεταξύ τους - τα νωπά λαχανικά, για παράδειγμα, είναι πιο παρόμοια μεταξύ τους από ότι για τα κατεψυγμένα τρόφιμα - και οι τεχνικές ομαδοποίησης χρησιμοποιούν αυτή τη σχέση στην ομάδα τα αντικέιμενα.
Η ισχύς μιας σχέσης μεταξύ δύο ή περισσοτέρων αντικειμένων μπορεί να προσδιοριστεί ποσοτικά ως μέτρο ομοιότητας :
Μια μαθηματική συνάρτηση υπολογίζει τη συσχέτιση μεταξύ δύο στοιχείων δεδομένων. Τα αποτελέσματα αυτού του υπολογισμού, που ονομάζονται τιμές ομοιότητας, ουσιαστικά συγκρίνουν ένα συγκεκριμένο στοιχείο δεδομένων με όλα τα άλλα στοιχεία του συνόλου δεδομένων. Αυτά τα άλλα στοιχεία θα είναι είτε παρόμοια ή λιγότερο παρόμοια σε σχέση με το συγκεκριμένο στοιχείο.
). Κάθε ομάδα έχει ένα στοιχείο που την αντιπροσωπεύει καλύτερα. αυτό το στοιχείο αναφέρεται ως εκπρόσωπος συμπλέγματος . Εξετάστε ένα σύνολο δεδομένων που αποτελείται από διάφορα είδη φρούτων σε ένα καλάθι. Το καλάθι έχει καρπούς διαφορετικών τύπων όπως μήλα, μπανάνες, λεμόνια και αχλάδια. Στην περίπτωση αυτή, τα φρούτα είναι τα στοιχεία δεδομένων. Η διαδικασία συγκέντρωσης δεδομένων εξάγει ομάδες από όμοια φρούτα από αυτό το σύνολο δεδομένων (καλάθι με διαφορετικά φρούτα). Το πρώτο βήμα σε μια διαδικασία συγκέντρωσης δεδομένων είναι να μεταφράσουμε αυτό το σύνολο δεδομένων σε ένα πίνακα δεδομένων: Ένας τρόπος να μοντελοποιηθεί αυτό το σύνολο δεδομένων είναι να έχουμε τις σειρές που αντιπροσωπεύουν τα στοιχεία του συνόλου δεδομένων (φρούτα). και οι στήλες αντιπροσωπεύουν χαρακτηριστικά ή χαρακτηριστικά που περιγράφουν τα στοιχεία.
Για παράδειγμα, ένα χαρακτηριστικό φρούτων μπορεί να είναι ο τύπος φρούτων (όπως μια μπανάνα ή μήλο), το βάρος, το χρώμα ή η τιμή. Σε αυτό το παράδειγμα συνόλου δεδομένων, τα στοιχεία έχουν τρία χαρακτηριστικά: τύπο φρούτου, χρώμα και βάρος.
Στις περισσότερες περιπτώσεις, η εφαρμογή μιας τεχνικής ομαδοποίησης δεδομένων στο σύνολο δεδομένων φρούτων όπως περιγράφεται παραπάνω σας επιτρέπει να
Ανάκτηση ομάδων (συμπλεγμάτων) παρόμοιων στοιχείων.
Μπορείτε να πείτε ότι ο καρπός σας είναι N αριθμός ομάδων. Μετά από αυτό, αν επιλέξετε ένα τυχαίο φρούτο, θα είστε σε θέση να κάνετε μια δήλωση σχετικά με αυτό το στοιχείο ως μέρος μιας από τις ομάδες N.
-
Ανάκτηση αντιπροσώπων ομάδων από κάθε ομάδα. Σε αυτό το παράδειγμα, ένας εκπρόσωπος συμπλέγματος θα επιλέξει έναν τύπο φρούτου από το καλάθι και θα το βάλει στην άκρη. Τα χαρακτηριστικά αυτού του φρούτου είναι τέτοια που ο καρπός αυτός αντιπροσωπεύει καλύτερα το σύμπλεγμα στο οποίο ανήκει.
-
Όταν ολοκληρώσετε τη συσσωμάτωση, το σύνολο δεδομένων σας είναι οργανωμένο και χωρίζεται σε φυσικές ομάδες. Η ομαδοποίηση δεδομένων αποκαλύπτει τη δομή των δεδομένων εξάγοντας φυσικές ομαδοποιήσεις από ένα σύνολο δεδομένων. Ως εκ τούτου, η ανακάλυψη συμπλεγμάτων είναι ένα ουσιαστικό βήμα για τη διατύπωση ιδεών και υποθέσεων σχετικά με τη δομή των δεδομένων σας και την απόκτηση γνώσεων για την καλύτερη κατανόησή της.
Η ομαδοποίηση δεδομένων μπορεί επίσης να είναι ένας τρόπος για τη μοντελοποίηση δεδομένων: Αντιπροσωπεύει ένα μεγαλύτερο σύνολο δεδομένων από ομάδες ή εκπροσώπους συμπλέγματος.
Επιπλέον, η ανάλυσή σας μπορεί να επιδιώκει απλώς να χωρίσει τα δεδομένα σε ομάδες παρόμοιων στοιχείων - όπως όταν
κατακερματισμός της αγοράς
χωρίζει τα δεδομένα της αγοράς-στόχου σε ομάδες όπως Καταναλωτές που μοιράζονται τα ίδια συμφέροντα όπως για παράδειγμα μεσογειακή κουζίνα) Καταναλωτές που έχουν κοινές ανάγκες (για παράδειγμα με συγκεκριμένες τροφικές αλλεργίες)
-
Η αναγνώριση ομάδων παρόμοιων πελατών μπορεί να σας βοηθήσει να αναπτύξετε μια στρατηγική μάρκετινγκ που να ανταποκρίνεται στις ανάγκες συγκεκριμένων συμπλεγμάτων.
-
Επιπλέον, η ομαδοποίηση δεδομένων μπορεί επίσης να σας βοηθήσει να προσδιορίσετε, να μάθετε ή να προβλέψετε τη φύση των νέων στοιχείων δεδομένων - ειδικά πώς μπορούν να συνδεθούν νέα δεδομένα με την πραγματοποίηση προβλέψεων. Για παράδειγμα, στην ανίχνευση μοτίβου
, η ανάλυση των μοτίβων στα δεδομένα (όπως τα μοτίβα αγορών σε συγκεκριμένες περιοχές ή ομάδες ηλικιών) μπορεί να σας βοηθήσει να αναπτύξετε αναλυτικά στοιχεία πρόβλεψης - στην περίπτωση αυτή, προβλέποντας τη φύση των μελλοντικών στοιχείων δεδομένων ταιριάζει καλά με τα καθιερωμένα πρότυπα.
Το παράδειγμα καλαθιού φρούτων χρησιμοποιεί την ομαδοποίηση δεδομένων για τη διάκριση μεταξύ διαφορετικών στοιχείων δεδομένων. Ας υποθέσουμε ότι η επιχείρησή σας συναρμολογεί προσαρμοσμένα καλάθια φρούτων και εισάγεται στην αγορά ένα νέο άγνωστο φρούτο. Θέλετε να μάθετε ή να προβλέψετε σε ποια ομάδα θα ανήκει το νέο αντικείμενο αν το προσθέσετε στο καλάθι με τα φρούτα. Επειδή έχετε ήδη εφαρμόσει τη συγκέντρωση δεδομένων στο σύνολο δεδομένων για τα φρούτα, έχετε τέσσερα συμπλέγματα - γεγονός που καθιστά ευκολότερο να προβλέψετε ποιο σύμπλεγμα (συγκεκριμένο είδος φρούτου) είναι κατάλληλο για το νέο στοιχείο. Το μόνο που έχετε να κάνετε είναι να συγκρίνετε τα άγνωστα φρούτα με τους άλλους τέσσερις αντιπροσώπους των συμπλεγμάτων και να προσδιορίσετε ποια ομάδα είναι η καλύτερη αντιστοιχία. Αν και αυτή η διαδικασία μπορεί να φανεί προφανής για ένα άτομο που εργάζεται με ένα μικρό σύνολο δεδομένων, δεν είναι τόσο προφανές σε μεγαλύτερη κλίμακα - όταν πρέπει να συσσωρεύσετε εκατομμύρια αντικείμενα χωρίς να εξετάσετε το καθένα.Η πολυπλοκότητα γίνεται εκθετική όταν το σύνολο δεδομένων είναι μεγάλο, ποικίλο και σχετικά ασυνάρτητο - γι 'αυτό υπάρχουν αλγόριθμοι ομαδοποίησης: Οι υπολογιστές κάνουν αυτό τον τύπο εργασίας καλύτερα.