Βίντεο: Statistical Programming with R by Connor Harris 2024
Οι ανθρακωρύχοι δεδομένων συχνά επωφελούνται από τα ειδικά χαρακτηριστικά για να συσκευάσουν περισσότερες πληροφορίες σε απλά διαγράμματα. Οι ετικέτες, οι επικαλύψεις και η διαδραστική επιλογή αποτελούν χαρακτηριστικά των εφαρμογών εξόρυξης δεδομένων, ειδικά χαρακτηριστικά που σας επιτρέπουν να είστε πιο παραγωγικοί.
Τα χιλιόμετρα μειώνονται καθώς αυξάνεται η ιπποδύναμη, όπως φαίνεται στο παρακάτω σχήμα.
Τα χιλιόμετρα αυξάνονται με το χρόνο, όπως μπορείτε να δείτε, ένα scatterplot χιλιομέτρων έναντι του έτους μοντέλου. Θα ήταν χρήσιμο να λάβετε αυτές τις δύο ιδέες σε ένα γράφημα.
Οι κοινές προσεγγίσεις εξόρυξης δεδομένων για την ενσωμάτωση περισσότερων από δύο μεταβλητών σε ένα γράφημα περιλαμβάνουν
-
Ετικέτες: Οι ετικέτες είναι τιμές μιας συμβολοσειράς ή κατηγορικής μεταβλητής που έχουν τοποθετηθεί πάνω στο scatterplot. Το παρακάτω σχήμα δείχνει ένα scatterplot που έχει επισημανθεί με το έτος μοντέλου του αυτοκινήτου.
Τα σύνολα δεδομένων με πολλά σημεία ή μεγάλες ετικέτες μπορούν να κάνουν αυτά τα διαγράμματα δυσανάγνωστα, όμως! Η λύση είναι να χρησιμοποιήσετε μόνο ένα δείγμα των δεδομένων. Η εγκατάσταση για αυτό το είδος δειγματοληψίας παρουσιάζεται στο παρακάτω σχήμα.
-
Επικάλυψη: Με επικαλύψεις, οι τιμές μιας κατηγορικής μεταβλητής καθορίζουν το σχήμα ή το χρώμα των σημείων. Το παρακάτω σχήμα δείχνει τη ρύθμιση για ένα μοντέλο scatterplot για να επικαλύπτει το μοντέλο έτους στο scatterplot χιλιομέτρων έναντι ιπποδύναμης.
Το εξαγόμενο scatterplot επικάλυψης εμφανίζεται στην παρακάτω εικόνα. Μπορεί να είναι πιο εύκολο να διαβάσετε τις επικαλύψεις χρώματος από τις επικαλύψεις σχήματος σημείων. Η ρύθμιση είναι συνήθως πολύ ίδια.
Ένα άλλο πράγμα που πρέπει να θυμάστε με scatterplots: Μπορεί να έχετε πολλά σημεία που πέφτουν στο ίδιο σημείο! Εάν ναι, μπορεί να μην μπορείτε να αναφέρετε ένα σημείο για μία υπόθεση από ένα σημείο για 100 περιπτώσεις. Η λύση είναι να εξακριβώσετε αν υπάρχει δυνατότητα επιλογής πολλαπλών παρουσιών. Αναζητήστε το μέγεθος του σημείου ή το jitter (μετακινεί σημεία ελαφρώς εκτός πραγματικών θέσεων τους για να είναι ορατές όλες).
Τα διαδραστικά scatterplots είναι εξαιρετικά χρονικά αποταμιευτικά για τους ανθρακωρύχους δεδομένων.
Πείτε ότι βλέπετε μια ενδιαφέρουσα ομάδα περιπτώσεων σε ένα γράφημα και θέλετε να διερευνήσετε περαιτέρω μόνο αυτές τις περιπτώσεις. Αν κοιτάζετε μόνο ένα ή δύο σημεία, μπορείτε να πάρετε τις πληροφορίες που θέλετε πετώντας, αλλά αυτό δεν είναι ικανοποιητικό όταν ενδιαφέρεστε για περισσότερα από δύο σημεία.
Τα εργαλεία επιλογής δεδομένων σε διαδραστικά scatterplots σας δίνουν περισσότερη δύναμη στην επιλογή δεδομένων. Το παρακάτω σχήμα δείχνει την ίδια ρύθμιση γραφήματος, αλλά με μια ομάδα σημείων που επιλέχθηκαν κάνοντας κλικ και σύροντάς το γύρω από το ποντίκι. Αυτό δεν είναι μόνο ένα οπτικό χαρακτηριστικό.
Μπορείτε να εξαγάγετε τα επιλεγμένα σημεία ως νέο σύνολο δεδομένων. Αυτό είναι πολύ βολικό και γρήγορο!
Εάν τα σημεία που χρειάζεστε δεν ταιριάζουν καλά σε μια ορθογώνια επιλογή, έχετε και άλλες επιλογές. Ανατρέξτε στην περιοχή Ζουμ / Επιλογή. Μπορείτε να δείτε ένα κουμπί με ορθογώνιο για ορθογώνια επιλογή και ένα άλλο με στρογγυλό σχήμα για επιλογή ελεύθερης φόρμας.
Ακολουθεί ένα παράδειγμα επιλογής ελεύθερης μορφής χρησιμοποιώντας δεδομένα σχετικά με την περιεκτικότητα σε νικοτίνη τσιγάρων που πωλούνται σε διάφορα μέρη του κόσμου. Αυτό το scatterplot δείχνει νικοτίνη ανά τσιγάρο για δείγματα από τις έξι περιοχές των Ηνωμένων Εθνών. (Αυτό είναι μια μη παραδοσιακή χρήση ενός scatterplot, επειδή η περιοχή δεν είναι μια συνεχής μεταβλητή, είναι κατηγορηματική. Οι ανθρακωρύχοι συχνά χρησιμοποιούν παραδοσιακά εργαλεία με μη παραδοσιακούς τρόπους.)
Τα σημεία μιας περιοχής δεν εμπίπτουν σε μια τέλεια κατακόρυφη γραμμή. Οι μικρές μετατοπίσεις (jitter) προς τα αριστερά και προς τα δεξιά γίνονται μόνο για αναγνωσιμότητα και εμφάνιση. Μερικά τσιγάρα έχουν εξαιρετικά υψηλά επίπεδα νικοτίνης και θέλετε να επιλέξετε αυτές τις περιπτώσεις.
Ένα αναπτυσσόμενο μενού προσφέρει επιλογές επιλογής. Η επιλογή πολυγώνου σάς επιτρέπει να επισημάνετε μια ελεύθερη περιοχή στο scatterplot.
Για να σημειώσετε, κάντε κλικ στο γράφημα για να κάνετε ένα σημείο εκκίνησης και, στη συνέχεια, κάντε κλικ ξανά και ξανά γύρω από την ομάδα των σημείων που θέλετε μέχρι να φτιάξετε το σχήμα που χρειάζεστε.
Ένα δεξί κλικ δείχνει ότι έχετε ολοκληρώσει την επιλογή. αυτό είναι ορατό από την επισήμανση στο γράφημα.