Βίντεο: The Secrets Donald Trump Doesn't Want You to Know About: Business, Finance, Marketing 2024
Μια πολύ χρήσιμη εφαρμογή των δεδομένων υποσύγκρισης είναι η εύρεση και αφαίρεση διπλών τιμών. Το R έχει μια χρήσιμη συνάρτηση, διπλή (), η οποία βρίσκει διπλές τιμές και επιστρέφει ένα λογικό διάνυσμα που σας λέει αν η συγκεκριμένη τιμή είναι ένα αντίγραφο μιας προηγούμενης τιμής. Αυτό σημαίνει ότι για διπλότυπες τιμές, το duplicated () επιστρέφει FALSE για την πρώτη εμφάνιση και TRUE για κάθε ακόλουθη εμφάνιση αυτής της τιμής, όπως στο παρακάτω παράδειγμα:
Εάν δοκιμάσετε αυτό σε ένα πλαίσιο δεδομένων, το R αυτόματα ελέγχει τις παρατηρήσεις (δηλαδή, αντιμετωπίζει κάθε γραμμή ως αξία). Έτσι, για παράδειγμα, με την κορνίζα δεδομένων: ίριδα: >> αντίγραφο (ίριδα) [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE [10] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE [136] FALSE FALSE FALSE FALSE FALSE FALSE FALSE ΑΛΗΘΕΙΑ FALSE [145] FALSE FALSE FALSE FALSE FALSE FALSEΑν κοιτάξετε προσεκτικά, παρατηρείτε ότι η γραμμή 143 είναι ένα αντίγραφο (επειδή το 143ο στοιχείο του αποτελέσματός σας έχει την τιμή TRUE). Μπορείτε επίσης να το πείτε χρησιμοποιώντας τη λειτουργία which ():
>> που (αντίγραφο (ίριδα)) [1] 143
Τώρα, για να καταργήσετε το διπλότυπο από την ίριδα, πρέπει να αποκλείσετε αυτήν τη σειρά από τα δεδομένα σας. Θυμηθείτε ότι υπάρχουν δύο τρόποι για να αποκλείσετε δεδομένα χρησιμοποιώντας υποσύνολο:
Καθορίστε ένα λογικό διάνυσμα, όπου
FALSE
σημαίνει ότι το στοιχείο θα αποκλειστεί.-
Το! (θαυμαστικό) είναι λογική άρνηση. Αυτό σημαίνει ότι μετατρέπει TRUE σε FALSE και αντίστροφα. Επομένως, για να αφαιρέσετε τα διπλότυπα από την ίριδα, κάνετε τα εξής:
index iris [-index,] -
Και στις δύο περιπτώσεις, θα παρατηρήσετε ότι η εντολή σας έχει καταργήσει τη γραμμή 143.