Βίντεο: Data Analysis in R by Dustin Tran 2024
Ένα από τα πιο εύκολα και πιο αξιόπιστα οι τρόποι λήψης δεδομένων στο R είναι η χρήση αρχείων κειμένου, ιδίως των αρχείων CSV (διαχωρισμένων με κόμμα). Η μορφή αρχείου CSV χρησιμοποιεί κόμματα για τον διαχωρισμό των διαφόρων στοιχείων σε μια γραμμή και κάθε γραμμή δεδομένων βρίσκεται στη δική της γραμμή στο αρχείο κειμένου, γεγονός που καθιστά τα αρχεία CSV ιδανικά για την αντιπροσώπευση των πινακοποιημένων δεδομένων.
Το πρόσθετο πλεονέκτημα των αρχείων CSV είναι ότι σχεδόν οποιαδήποτε εφαρμογή δεδομένων υποστηρίζει την εξαγωγή δεδομένων στη μορφή CSV. Αυτό ισχύει βεβαίως για τις περισσότερες εφαρμογές υπολογιστικού φύλλου, όπως το Microsoft Excel και το OpenOffice Calc.
Στα παρακάτω παραδείγματα, υποθέστε ότι έχετε αποθηκεύσει ένα αρχείο CSV σε ένα εύχρηστο φάκελο στο σύστημα αρχείων σας. Για να μετατρέψετε ένα υπολογιστικό φύλλο Excel σε μορφή CSV, πρέπει να επιλέξετε Αρχείο → Αποθήκευση ως, το οποίο σας δίνει τη δυνατότητα να αποθηκεύσετε το αρχείο σας σε διάφορες μορφές.
Λάβετε υπόψη ότι ένα αρχείο CSV μπορεί να αντιπροσωπεύει μόνο ένα φύλλο εργασίας ενός υπολογιστικού φύλλου. Τέλος, βεβαιωθείτε ότι χρησιμοποιείτε την επάνω γραμμή του φύλλου εργασίας σας (γραμμή 1) για τις επικεφαλίδες της στήλης.
Στον R, χρησιμοποιείτε την ανάγνωση. Η συνάρτηση csv () εισάγει δεδομένα σε μορφή CSV. Αυτή η συνάρτηση έχει μια σειρά από επιχειρήματα, αλλά το μόνο βασικό όρισμα είναι το αρχείο, το οποίο καθορίζει την τοποθεσία και το όνομα αρχείου. Για να διαβάσετε ένα αρχείο που ονομάζεται στοιχεία. csv που βρίσκεται στο f: use read. csv () με αρχείο. διαδρομή: δεδομένα >> στοιχεία str (στοιχεία). frame ': 10 obs. από 9 μεταβλητές: $ Atomic. αριθμός: int 1 2 3 4 5 6 7 8 9 10 $ Όνομα: Παράγοντας w / 10 επίπεδα "Beryllium", "Boron", …: 6 5 7 1 2 3 9 10 4 8 $ Σύμβολο: Factor w / 10 levels " B "," Be "," C "," F ", …: 5 6 7 2 1 3 8 10 4 9 $ Ομάδα: int 1 18 1 2 13 14 15 16 17 18 $ Περίοδος: int 1 1 2 2 2 2 2 2 2 2 $ Αποκλεισμός: Παράγοντας w / 2 επίπεδα "p", "s": 2 2 2 1 1 1 1 1 1 1 $ Κράτος. στο. STP: Παράμετρος w / 2 επίπεδα "Αέριο", "Στερεό": 1 1 2 2 2 1 1 1 1 $ $ Προεκπ.: Παράγοντας w / 1 επίπεδο "Primordial": 1 1 1 1 1 1 1 1 1 1 $ Περιγραφή: Παράγοντας w / 6 επίπεδα "Αλκαλίου μετάλλου", …: 6 5 1 2 4 6 6 6 3 5
R εισάγει τα δεδομένα σε ένα πλαίσιο δεδομένων. Όπως μπορείτε να δείτε, αυτό το παράδειγμα έχει δέκα παρατηρήσεις εννέα μεταβλητών.
Αυτή η προεπιλεγμένη επιλογή μετατροπής συμβολοσειρών σε παράγοντες όταν χρησιμοποιείτε την ανάγνωση. ο πίνακας () μπορεί να αποτελέσει πηγή μεγάλης σύγχυσης. Συχνά προτιμάτε να εισάγετε δεδομένα που περιέχουν συμβολοσειρές με τέτοιο τρόπο ώστε οι χορδές να μην μετατρέπονται παράγοντες, αλλά να παραμένουν χαρακτήρες χαρακτήρα.Για να εισαγάγετε δεδομένα που περιέχουν συμβολοσειρές, χρησιμοποιήστε τη συμβολοσειρά stringsAsFactors = FALSE για ανάγνωση. csv () ή να διαβάσετε. πίνακας ():
Εάν διαθέτετε ένα αρχείο στη μορφή της ΕΕ (όπου τα κόμματα χρησιμοποιούνται ως δεκαδικά διαχωριστικά και τα ερωτηματικά χρησιμοποιούνται ως χωριστές πεδίων), πρέπει να το εισαγάγετε στο R με τη μέθοδο ανάγνωσης. csv2 ().