Πίνακας περιεχομένων:
Βίντεο: Statistical Programming with R by Connor Harris 2024
Χρησιμοποιείτε tapply () για να δημιουργήσετε πίνακες περιλήψεων δεδομένων στο R. Με το tapply (), μπορείτε εύκολα να δημιουργήσετε περιλήψεις υποομάδων στα δεδομένα. Η συνάρτηση αυτή παίρνει τρία επιχειρήματα:
-
X : Ένα διάνυσμα
-
INDEX : Για παράδειγμα, υπολογίστε το μέσο μήκος sepal στο σύνολο δεδομένων ίριδας: >> tapply (ίριδα $ Sepal. Μήκος, ίριδα $ είδος, μέση τιμή) setosa versicolor virginica 5. 006 5.936 6. 588
-
Με αυτό σύντομη γραμμή κώδικα, κάνετε κάποια ισχυρά πράγματα. Εσείς πείτε στο R να πάρει το Sepal. Στήλη μήκους, χωρίστε την σύμφωνα με το είδος και στη συνέχεια υπολογίστε τον μέσο όρο για κάθε ομάδα.
Φυσικά, χρησιμοποιώντας τη συνάρτηση with (), μπορείτε να γράψετε τη γραμμή κώδικα με λίγο πιο ευανάγνωστο τρόπο: >> με (ίριδα, tapply (Sepal, Length, Species, mean)) setosa versicolor virginica 5 006 5. 936 6. 588
Χρησιμοποιώντας το tapply (), μπορείτε επίσης να δημιουργήσετε πιο σύνθετους πίνακες για να συνοψίσετε τα δεδομένα σας. Κάνετε αυτό χρησιμοποιώντας μια λίστα ως το INDEX επιχείρημά σας.
Για παράδειγμα, προσπαθήστε να συνοψίσετε τα mtcars πλαισίου δεδομένων, ένα ενσωματωμένο πλαίσιο δεδομένων με δεδομένα για κινητήρες αυτοκινήτων και απόδοση. Όπως και με οποιοδήποτε αντικείμενο, μπορείτε να χρησιμοποιήσετε το str () για να επιθεωρήσετε τη δομή του: >> str (mtcars)
Η μεταβλητή am είναι ένα αριθμητικό διάνυσμα που δείχνει αν ο κινητήρας διαθέτει αυτόματο (0) κιβώτιο ταχυτήτων. Επειδή αυτό δεν είναι πολύ περιγραφικό, αρχίστε με τη δημιουργία ενός νέου αντικειμένου, τα αυτοκίνητα, που είναι ένα αντίγραφο των mtcars, και να αλλάξετε τη στήλη να είμαι ένας παράγοντας:
αυτοκίνητα <- εντός (mtcars, + am <- παράγοντας (am, επίπεδα = 0: 1, ετικέτες = c Χρησιμοποιήστε tapply () για να βρείτε τα μέσα μίλια ανά γαλόνι (mpg) για κάθε τύπο κιβωτίου ταχυτήτων: >> με (αυτοκίνητα, tapply (mpg, am, μέση)) Αυτόματη Εγχειρίδιο 17. 14737 24. 39231 < είσαι σωστός. Αυτό εξακολουθεί να είναι μόνο ένας μονοδιάστατος πίνακας. Τώρα, προσπαθήστε να φτιάξετε ένα δισδιάστατο τραπέζι με τον τύπο του κιβωτίου ταχυτήτων (am) και τον αριθμό των γραναζιών: >> με (αυτοκίνητα, tapply (mpg, list (gear, am) 3 16. 10667 NA 4 21. 05000 26. 275 5 NA 21. 380
Χρησιμοποιείτε tapply () για να δημιουργήσετε πίνακες περιλήψεων δεδομένων. Αυτό είναι λίγο παρόμοιο με τη λειτουργία πίνακα (). Ωστόσο, ο πίνακας () μπορεί να δημιουργήσει μόνο πίνακες έκτακτης ανάγκης (δηλαδή πίνακες μετρήσεων), ενώ με tapply () μπορείτε να ορίσετε οποιαδήποτε λειτουργία ως συνάρτηση συσσωμάτωσης.Με άλλα λόγια, με tapply (), μπορείτε να υπολογίσετε μετρήσεις, μέσα ή οποιαδήποτε άλλη τιμή.Εάν θέλετε να συνοψίσετε στατιστικά στοιχεία σε ένα μόνο διανύσμα, tapply () είναι πολύ χρήσιμο και γρήγορο στη χρήση.
Πώς να χρησιμοποιήσετε aggregate ()
Μια άλλη λειτουργία R που κάνει κάτι πολύ παρόμοια είναι aggregate (): >> με (αυτοκίνητα, aggregate (mpg,) ταχύτητα am x 1 3 Αυτόματη 16. 10667 2 4 Αυτόματη 21. 05000 3 4 Χειροκίνητη 26. 27500 4 5 Χειροκίνητη 21. 38000Στη συνέχεια, παίρνετε aggregate () σε νέα ύψη χρησιμοποιώντας τη διασύνδεση τύπου.