Πίνακας περιεχομένων:
Βίντεο: Zeitgeist: Moving Forward 2024
Μέρος της Data Science For Dummies Cheat Sheet > Εάν οι στατιστικές έχουν περιγραφεί ως η επιστήμη της απόκτησης γνώσεων από δεδομένα, τότε ποια είναι η διαφορά μεταξύ ενός στατιστικού και ενός επιστήμονα δεδομένων; Καλή ερώτηση! Ενώ πολλά καθήκοντα στην επιστήμη των δεδομένων απαιτούν ένα δίκαιο κομμάτι της στατιστικής τεχνογνωσίας, το εύρος και το εύρος της γνώσης και της ικανότητας των επιστημόνων δεδομένων είναι διαφορετικό από εκείνο ενός στατιστικού. Οι βασικές διακρίσεις περιγράφονται παρακάτω.
-
Ένα από τα βασικά χαρακτηριστικά των επιστημόνων δεδομένων είναι ότι προσφέρουν έναν εξειδικευμένο βαθμό εμπειρογνωμοσύνης στην περιοχή στην οποία εφαρμόζουν τις αναλυτικές μεθόδους τους. Οι επιστήμονες δεδομένων χρειάζονται αυτό ώστε να είναι σε θέση να κατανοήσουν πραγματικά τις επιπτώσεις και τις εφαρμογές των δεδομένων που παράγουν. Ένας επιστήμονας δεδομένων θα πρέπει να έχει αρκετή εμπειρογνωμοσύνη για την ύλη, ώστε να είναι σε θέση να προσδιορίσει τη σημασία των ευρημάτων του και να αποφασίσει ανεξάρτητα πώς να προχωρήσει στην ανάλυση.
Προσεγγίσεις μαθηματικής και μηχανικής μάθησης:
Οι στατιστικοί βασίζονται κυρίως στις στατιστικές μεθόδους και διαδικασίες όταν παράγουν πληροφορίες από δεδομένα. Αντίθετα, οι επιστήμονες των δεδομένων καλούνται να τραβήξουν από μια μεγάλη ποικιλία τεχνικών για να αντλήσουν στοιχεία. Αυτά περιλαμβάνουν στατιστικές μεθόδους, αλλά περιλαμβάνουν και προσεγγίσεις που δεν βασίζονται σε στατιστικές - όπως εκείνες που απαντώνται στα μαθηματικά, την ομαδοποίηση, την ταξινόμηση και τις μη στατιστικές προσεγγίσεις μηχανικής μάθησης. -
Βλέποντας τη σημασία της στατιστικής τεχνογνωσίας Δεν χρειάζεται να βγείτε και να αποκτήσετε ένα βαθμό στα στατιστικά στοιχεία για να ασκήσετε την επιστήμη των δεδομένων, αλλά πρέπει τουλάχιστον να εξοικειωθείτε με μερικές από τις θεμελιώδεις μεθόδους που χρησιμοποιούνται στην ανάλυση στατιστικών δεδομένων. Αυτά περιλαμβάνουν:
Γραμμική παλινδρόμηση
: Η γραμμική παλινδρόμηση είναι χρήσιμη για τη μοντελοποίηση των σχέσεων μεταξύ εξαρτημένης μεταβλητής και μιας ή περισσότερων ανεξάρτητων μεταβλητών. Ο σκοπός της γραμμικής παλινδρόμησης είναι να ανακαλυφθούν (και να ποσοτικοποιηθεί η ισχύς) σημαντικών συσχετισμών μεταξύ εξαρτημένων και ανεξάρτητων μεταβλητών.
-
Ανάλυση χρονοσειρών: Η ανάλυση χρονοσειρών περιλαμβάνει ανάλυση μιας συλλογής δεδομένων σχετικά με τις τιμές χαρακτηριστικών με την πάροδο του χρόνου, προκειμένου να προβλεφθούν μελλοντικές περιπτώσεις του μέτρου με βάση τα προηγούμενα δεδομένα παρατήρησης.
-
προσομοιώσεις Monte Carlo: Η μέθοδος Monte Carlo είναι μια τεχνική προσομοίωσης που μπορείτε να χρησιμοποιήσετε για να δοκιμάσετε υποθέσεις, να δημιουργήσετε εκτιμήσεις παραμέτρων, να προβλέψετε αποτελέσματα σεναρίων και να επικυρώσετε μοντέλα. Η μέθοδος είναι ισχυρή επειδή μπορεί να χρησιμοποιηθεί για να προσομοιώσει πολύ γρήγορα οπουδήποτε από 1 έως 10, 000 (ή περισσότερα) δείγματα προσομοίωσης για κάθε διαδικασία που προσπαθείτε να αξιολογήσετε.
-
Στατιστικά στοιχεία χωρικών δεδομένων: Μια θεμελιώδης και σημαντική ιδιότητα των χωρικών δεδομένων είναι ότι δεν είναι τυχαία. Είναι χωρικά εξαρτώμενο και αυτοσυσχετισμένο. Κατά τη μοντελοποίηση χωρικών δεδομένων, αποφύγετε τυχαίες στατιστικές μεθόδους που υποθέτουν τα δεδομένα σας. Kriging και krige είναι δύο στατιστικές μέθοδοι που μπορείτε να χρησιμοποιήσετε για να μοντελοποιήσετε χωρικά δεδομένα. Αυτές οι μέθοδοι σας επιτρέπουν να παράγετε προβλέψιμες επιφάνειες για ολόκληρες περιοχές μελέτης με βάση σύνολα γνωστών σημείων στο γεωγραφικό χώρο.
-
Εργασία με μεθόδους ομαδοποίησης, ταξινόμησης και μηχανικής μάθησης Η μηχανική μάθηση είναι η εφαρμογή υπολογιστικών αλγορίθμων για την εκμάθηση από (ή την εξαγωγή σχεδίων) ακατέργαστων συνόλων δεδομένων.
Η κατηγοριοποίηση
είναι ένας ιδιαίτερος τύπος μηχανογραφικής μάθησης μη εποπτευόμενης μηχανικής μάθησης, για να είμαστε ακριβείς, πράγμα που σημαίνει ότι οι αλγόριθμοι πρέπει να μαθαίνουν από μη επισημασμένα δεδομένα και ως εκ τούτου πρέπει να χρησιμοποιούν εισερχόμενες μεθόδους συσχετισμοί. Η ταξινόμηση, από την άλλη πλευρά, ονομάζεται εποπτευόμενη εκμάθηση μηχανών, που σημαίνει ότι οι αλγόριθμοι μαθαίνουν από ετικέτα δεδομένων. Οι παρακάτω περιγραφές εισάγουν μερικές από τις πιο βασικές προσεγγίσεις ομαδοποίησης και κατηγοριοποίησης:
Ομαδοποίηση k-mean: Γενικά, αναπτύσσετε αλγόριθμους k-μέσων για να υποδιαιρέσετε σημεία δεδομένων ενός συνόλου δεδομένων σε συστοιχίες με βάση τις πλησιέστερες μέσες τιμές. Για να προσδιορίσετε τη βέλτιστη διαίρεση των σημείων δεδομένων σας σε ομάδες, έτσι ώστε η απόσταση μεταξύ των σημείων σε κάθε σύμπλεγμα να ελαχιστοποιηθεί, μπορείτε να χρησιμοποιήσετε την ομαδοποίηση k-means.
-
Αλγόριθμοι πλησιέστερων γειτόνων: Ο σκοπός της πλησιέστερης γειτονικής ανάλυσης είναι να αναζητήσετε και να εντοπίσετε είτε το πλησιέστερο σημείο στο διάστημα είτε την πλησιέστερη αριθμητική τιμή, ανάλογα με το χαρακτηριστικό που χρησιμοποιείτε για τη βάση σύγκρισης.
-
Εκτίμηση πυκνότητας πυρήνα: Ένας εναλλακτικός τρόπος για τον προσδιορισμό συμπλεγμάτων στα δεδομένα σας είναι να χρησιμοποιήσετε μια λειτουργία εξομάλυνσης πυκνότητας. Η εκτίμηση πυκνότητας πυρήνα (KDE) λειτουργεί τοποθετώντας έναν πυρήνα
-
μια συνάρτηση βαρύτητας που είναι χρήσιμη για την ποσοτικοποίηση της πυκνότητας - σε κάθε σημείο δεδομένων στο σύνολο δεδομένων και στη συνέχεια αθροίζοντας τους πυρήνες για να δημιουργηθεί μια εκτίμηση πυκνότητας πυρήνα για το συνολικό περιοχή. Διατηρώντας μαθηματικές μεθόδους στο μείγμα Πολλοί λέγονται για την αξία των στατιστικών στην πρακτική της επιστήμης των δεδομένων, αλλά σπάνια αναφέρονται οι εφαρμοσμένες μαθηματικές μέθοδοι. Για να είμαστε ειλικρινείς, τα μαθηματικά είναι η βάση όλων των ποσοτικών αναλύσεων. Η σημασία του δεν πρέπει να υποτιμηθεί. Οι δύο ακόλουθες μαθηματικές μέθοδοι είναι ιδιαίτερα χρήσιμες στην επιστήμη των δεδομένων.
Η λήψη αποφάσεων πολλαπλών κριτηρίων (MCDM):
Το MCDM είναι μια προσέγγιση προσομοίωσης μαθηματικών αποφάσεων που μπορείτε να χρησιμοποιήσετε όταν έχετε διάφορα κριτήρια ή εναλλακτικές λύσεις που πρέπει να αξιολογείτε ταυτόχρονα κατά τη λήψη απόφασης.
-
Αλυσίδες Markov : Μια αλυσίδα Markov είναι μια μαθηματική μέθοδος που αλυσίδες μαζί μια σειρά τυχαία παραγόμενων μεταβλητών που αντιπροσωπεύουν την παρούσα κατάσταση, προκειμένου να μοντελοποιηθούν οι αλλαγές στις σημερινές μεταβλητές κατάστασης επηρεάζουν τις μελλοντικές καταστάσεις.
-