Πίνακας περιεχομένων:
Βίντεο: Statistical Programming with R by Connor Harris 2024
Τα scatterplots είναι ιδιαίτερα σημαντικά για την επιστήμη των δεδομένων επειδή μπορούν να παρουσιάσουν μοτίβα δεδομένων που δεν είναι προφανή όταν προβληθούν με άλλους τρόπους. Μπορείτε να δείτε τις ομαδοποιήσεις δεδομένων με σχετική ευκολία και να βοηθήσετε τον θεατή να καταλάβει πότε τα δεδομένα ανήκουν σε μια συγκεκριμένη ομάδα. Μπορείτε επίσης να εμφανίσετε αλληλεπικαλύψεις μεταξύ ομάδων, ακόμη και να αποδείξετε πότε ορισμένα δεδομένα βρίσκονται εκτός του αναμενόμενου εύρους. Η εμφάνιση αυτών των διαφόρων τύπων σχέσεων στα δεδομένα είναι μια προηγμένη τεχνική που πρέπει να γνωρίζετε για να αξιοποιήσετε καλύτερα τη MatPlotLib.
Παρουσιάζοντας ομάδες
Το χρώμα είναι ο τρίτος άξονας όταν εργάζεστε με ένα scatterplot. Η χρήση του χρώματος σας επιτρέπει να επισημάνετε τις ομάδες, έτσι ώστε οι άλλοι να μπορούν να τους δουν με μεγαλύτερη ευκολία. Το παρακάτω παράδειγμα δείχνει πώς μπορείτε να χρησιμοποιήσετε το χρώμα για να εμφανίσετε ομάδες μέσα σε ένα scatterplot:
import numpy ως np
import matplotlib. pyplot ως plt
x1 = 5 * np. τυχαίος. rand (50)
χ2 = 5 * np. τυχαίος. rand (50) + 25
χ3 = 30 * np. τυχαίος. rand (25)
χ = np. Συνδυάστε ((x1, x2, x3))
y1 = 5 * np. τυχαίος. rand (50)
γ2 = 5 * np. τυχαίος. rand (50) + 25
γ3 = 30 * np. τυχαίος. rand (25)
γ = np. Συνδυάστε (y1, y2, y3))
color_array = ['b'] * 50 + ['g'] * 50 + ['r'] * 25
plt. διάσπαση (x, y, s = [50], δείκτης = "D", c = color_array)
plt. show ()
Αυτό το παράδειγμα χρησιμοποιεί μια διάταξη για τα χρώματα. Ωστόσο, η πρώτη ομάδα είναι μπλε, ακολουθούμενη από πράσινο για τη δεύτερη ομάδα. Οποιαδήποτε απόκλιση εμφανίζεται με κόκκινο χρώμα.
Οι συστοιχίες χρωμάτων μπορούν να κάνουν τις ομάδες scatterplot να ξεχωρίζουν καλύτερα.Εμφάνιση συσχετισμών
Σε ορισμένες περιπτώσεις, πρέπει να γνωρίζετε τη γενική κατεύθυνση που λαμβάνουν τα δεδομένα σας όταν κοιτάζετε ένα scatterplot. Ακόμη και αν δημιουργήσετε μια σαφή απεικόνιση των ομάδων, η πραγματική κατεύθυνση που λαμβάνουν τα δεδομένα ως σύνολο μπορεί να μην είναι ξεκάθαρη. Σε αυτήν την περίπτωση, προσθέτετε μια γραμμή τάσης στην έξοδο. Ακολουθεί ένα παράδειγμα προσθήκης μιας γραμμής τάσης σε ένα scatterplot που περιλαμβάνει ομάδες.
Εισαγωγή numpy ως np
εισαγωγή matplotlib. pyplot ως plt
εισαγωγή matplotlib. pylab ως plb
χ1 = 15 * np. τυχαίος. rand (50)
χ2 = 15 * np. τυχαίος. rand (50) + 15
χ3 = 30 * np. τυχαίος. rand (30)
χ = np. συνενώστε ((x1, x2, x3))
y1 = 15 * np. τυχαίος. rand (50)
γ2 = 15 * np. τυχαίος. rand (50) + 15
γ3 = 30 * np. τυχαίος. rand (30)
γ = np. Συνδυάστε (y1, y2, y3))
color_array = ['b'] * 50 + ['g'] * 50 + ['r'] * 25
plt. διάσπαση (x, y, s = [90], δείκτης = "*", c = color_array)
z = np. polyfit (χ, γ, 1)
ρ = np. poly1d (z)
plb. οικόπεδο (x, p (x), 'm -')
plt.show ()
Η προσθήκη μιας γραμμής τάσης σημαίνει την κλήση της NumPy
polyfit ()
συνάρτηση με τα δεδομένα, που επιστρέφει ένα διάνυσμα συντελεστών,
p
, που ελαχιστοποιεί το σφάλμα ελαχίστων τετραγώνων. Η ελάχιστη τετραγωνική παλινδρόμηση είναι μια μέθοδος για την εύρεση μιας γραμμής που συνοψίζει τη σχέση μεταξύ δύο μεταβλητών,
x
και
y
στην περίπτωση αυτή, τουλάχιστον εντός της περιοχής της επεξηγηματικής μεταβλητής
x
. Η τρίτη παράμετρος
polyfit ()
εκφράζει τον βαθμό της πολυωνυμικής προσαρμογής.
Η έξοδος διανύσματος
polyfit ()
χρησιμοποιείται ως είσοδος
poly1d ()
, η οποία υπολογίζει τα πραγματικά δεδομένα άξονα y. Η κλήση προς
γραφική παράσταση ()
δημιουργεί τη γραμμή τάσεων στο scatterplot.