Πίνακας περιεχομένων:
Βίντεο: Data Analysis in R by Dustin Tran 2024
Ένα πολύ βολικό χαρακτηριστικό του ggplot2 είναι το εύρος των λειτουργιών του για να συνοψίσουμε τα δεδομένα R σας στο οικόπεδο. Αυτό σημαίνει ότι συχνά δεν χρειάζεται να προ-συνοψίζετε τα δεδομένα σας. Για παράδειγμα, το ύψος των ράβδων σε ένα ιστόγραμμα δείχνει πόσες παρατηρήσεις για κάτι που έχετε στα δεδομένα σας.
Η στατιστική περίληψη για αυτό είναι να μετράτε τις παρατηρήσεις. Οι στατιστικοί αναφέρονται σε αυτή τη διαδικασία ως binning, και το προεπιλεγμένο stat για geom_bar () είναι stat_bin ().
Ανάλογα με τον τρόπο με τον οποίο κάθε geom έχει ένα σχετικό προεπιλεγμένο stat, κάθε stat έχει επίσης προεπιλεγμένο geom.
Έτσι, αυτό προκαλεί την ερώτηση: Πώς αποφασίζετε αν θα χρησιμοποιήσετε ένα geom ή ένα stat; Θεωρητικά δεν έχει σημασία αν επιλέγετε πρώτα το geom ή το stat. Στην πράξη, ωστόσο, είναι συχνά διαισθητικό να αρχίσετε πρώτα με έναν τύπο οικόπεδο - με άλλα λόγια, να προσδιορίσετε ένα geom. Αν στη συνέχεια θέλετε να προσθέσετε ένα άλλο επίπεδο στατιστικής περίληψης, χρησιμοποιήστε ένα stat.
Σε αυτό το γράφημα χρησιμοποιήσατε τα ίδια δεδομένα για να δημιουργήσετε πρώτα ένα scatterplot με geom_point () και στη συνέχεια προσθέσατε μια ομαλή γραμμή με το stat_smooth ().
Ρίξτε μια ματιά σε ορισμένα πρακτικά παραδείγματα χρήσης λειτουργιών stat.
Stat | Περιγραφή | Προεπιλεγμένο Geom |
---|---|---|
stat_bin () | Μετρώνει τον αριθμό των παρατηρήσεων σε κάδους. | geom_bar () |
stat_smooth () | Δημιουργεί μια ομαλή γραμμή. | geom_line () |
stat_sum () | Προσθέτει τιμές. | geom_point () |
stat_identity () | Δεν υπάρχει σύνοψη. Σχεδιάζει δεδομένα όπως είναι. | geom_point () |
stat_boxplot () | Συγκεντρώνει τα δεδομένα για μια γραφική παράσταση box-and-whisker. | geom_boxplot () |
Τρόπος αποθήκευσης δεδομένων στο ggplot2 |
Έχετε ήδη δει πώς να χρησιμοποιήσετε το stat_bin () για να συνοψίσετε τα δεδομένα σας σε κάδους, επειδή αυτή είναι η προεπιλεγμένη κατάσταση του geom_bar (). Αυτό σημαίνει ότι οι ακόλουθες δύο γραμμές κώδικα παράγουν όμοια γραφικά: >> ggplot (σεισμοί, aes (x = βάθος)) + geom_bar (binwidth = 50)> ggplot (quakes, aes (x = binwidth = 50)
Πώς να ομαλοποιήσετε τα δεδομένα R στο ggplot2
Το πακέτο ggplot2 καθιστά επίσης πολύ εύκολο να δημιουργήσετε γραμμές παλινδρόμησης μέσω των δεδομένων σας. Χρησιμοποιείτε τη συνάρτηση stat_smooth () για να δημιουργήσετε αυτόν τον τύπο γραμμής.
Το ενδιαφέρον στοιχείο για το stat_smooth () είναι ότι χρησιμοποιεί την τοπική παλινδρόμηση από προεπιλογή. Το R έχει πολλές λειτουργίες που μπορούν να το κάνουν, αλλά το ggplot2 χρησιμοποιεί τη λειτουργία loess () για τοπική παλινδρόμηση. Αυτό σημαίνει ότι αν θέλετε να δημιουργήσετε ένα μοντέλο γραμμικής παλινδρόμησης θα πρέπει να πείτε στο stat_smooth () να χρησιμοποιήσει μια διαφορετική λειτουργία ομαλότερης. Κάνετε αυτό με το όρισμα της μεθόδου.
Για να φανεί η χρήση μιας ομαλότερης, ξεκινήστε δημιουργώντας ένα scatterplot της ανεργίας στο σύνολο δεδομένων longley: >> ggplot (longley, aes (x = έτος, y = απασχολούμενο)) + geom_point, προσθέστε μια ομαλότερη.Αυτό είναι τόσο απλό όσο προσθέτοντας το stat_smooth () στη γραμμή κώδικα. >> ggplot (longley, aes (x = έτος, y = απασχολούμενο)) + + geom_point () + stat_smooth ()
Τέλος, πείτε στο stat_smooth να χρησιμοποιήσει ένα μοντέλο γραμμικής παλινδρόμησης. Κάνετε αυτό προσθέτοντας τη μέθοδο argument = "lm". >> ggplot (longley, aes (x = έτος, y = απασχολούμενο)) + geom_point () + stat_smooth (method = "lm")
δεν θέλετε το ggplot2 να συνοψίσει τα δεδομένα σας στο οικόπεδο. Αυτό συμβαίνει συνήθως όταν τα δεδομένα σας έχουν ήδη συνοψιστεί ή όταν κάθε γραμμή του πλαισίου δεδομένων σας πρέπει να γραφεί χωριστά. Σε αυτές τις περιπτώσεις, θέλετε να πείτε στο ggplot2 να μην κάνει τίποτα καθόλου, και το stat να το κάνει αυτό είναι stat_identity ().