Πίνακας περιεχομένων:
Βίντεο: Bandgrävmaskin 16,5 ton Liebherr R 902 LC Klaravik 2024
Όταν κάνετε εξόρυξη δεδομένων, μερικές φορές θα έχετε περισσότερα δεδομένα από αυτά που χρειάζεστε για ένα συγκεκριμένο έργο. Ακολουθεί ο τρόπος με τον οποίο μπορείτε να βρείτε ακριβώς αυτό που χρειάζεστε.
Περιορισμός των πεδίων
Όταν έχετε πολλές μεταβλητές σε ένα σύνολο δεδομένων, μπορεί να είναι δύσκολο να βρείτε ή να δείτε εκείνες που σας ενδιαφέρουν. Και αν τα σύνολα δεδομένων σας είναι μεγάλα και δεν χρειάζεστε όλες τις μεταβλητές, η διατήρηση των πρόσθετων στοιχείων απορροφά άσκοπα τους πόρους. Έτσι, μερικές φορές πρέπει να κρατήσετε μερικές μεταβλητές και να ρίξετε άλλους. Το σχήμα δείχνει ένα παράδειγμα στο KNIME, όπου το σωστό εργαλείο ονομάζεται Φίλτρο Στήλης.
Ένα παράδειγμα ρύθμισης για αυτό το εργαλείο εμφανίζεται στο παρακάτω σχήμα.
Για να περιορίσετε τα πεδία, αναζητήστε ένα εργαλείο μεταβλητής επιλογής στην εφαρμογή εξόρυξης δεδομένων. Αυτά βρίσκονται με άλλα εργαλεία χειρισμού δεδομένων. Όπως και με άλλα εργαλεία εξόρυξης δεδομένων, τα ονόματα διαφέρουν από προϊόν σε προϊόν. Αναζητήστε παραλλαγές στις λέξεις , μεταβλητή, ή πεδίο, και επιλογή ή φιλτράρισμα.
Επιλογή σχετικών περιπτώσεων
Οι περιπτώσεις με ελλιπή δεδομένα μπορούν να φιλτραριστούν πριν από την κατασκευή του μοντέλου. Η αφαίρεση ατελών περιπτώσεων είναι ένα κοινό παράδειγμα επιλογής δεδομένων ή φιλτραρίσματος .
Αλλά πώς επιλέγετε μόνο τις σχετικές περιπτώσεις για κάθε τομέα που σας ενδιαφέρει; Θα χρησιμοποιούσατε ένα εργαλείο επιλογής δεδομένων.
Το παρακάτω σχήμα δείχνει ένα εργαλείο επιλογής δεδομένων σε μια άλλη εφαρμογή εξόρυξης δεδομένων.
Το επόμενο σχήμα δείχνει πώς θα ρυθμίσετε το εργαλείο αυτό για ένα άλλο είδος επιλογής, αυτό που βασίζεται στην αξία μιας μεταβλητής.
Είναι συνηθισμένο να χρησιμοποιείτε αυτό το είδος επιλογής δεδομένων και ορισμένες εφαρμογές παρέχουν όλες τις ενσωματωμένες λειτουργίες για να σας βοηθήσουν να ορίσετε ακριβώς τις περιπτώσεις που θέλετε. Αυτός έχει μερικά εξαιρετικά χαρακτηριστικά. εμφανίζει συνοπτικά στατιστικά στοιχεία για τη μεταβλητή και σας λέει ακριβώς πόσες περιπτώσεις πληρούν τα κριτήρια επιλογής.
Οι περισσότερες εφαρμογές εξόρυξης δεδομένων διαθέτουν εργαλεία για την επιλογή μόνο των περιπτώσεων που χρειάζεστε. Κοιτάξτε στα μενού (ή αναζητήστε) για επιλέξτε ή φίλτρο.
Δειγματοληψία
Μια δημοφιλής ιδέα αυτές τις μέρες είναι ότι περισσότερα δεδομένα είναι καλύτερα δεδομένα. Αυτή δεν είναι μια νέα ιδέα. Οι εφαρμογές εξόρυξης δεδομένων έχουν αναπτυχθεί πάντα για να λειτουργούν με μεγάλες ποσότητες δεδομένων. Ακόμη και το όνομα "εξόρυξη δεδομένων" υποδηλώνει μεγάλες ποσότητες. Αλλά συχνά, η εργασία με ένα δείγμα των δεδομένων σας θα σας δώσει πληροφορίες που είναι εξίσου χρήσιμες, θα διευκολύνουν την εργασία σας και θα εξοικονομούν χρόνο και πόρους.
Η δειγματοληψία παίζει σημαντικό ρόλο στην εξόρυξη δεδομένων. Αν τα δεδομένα είναι ισορροπημένα, αυτό σημαίνει ότι το μοντέλο χρησιμοποίησε ίσους αριθμούς περιπτώσεων σε κάθε σύγκριση ομάδων (σε αυτό το παράδειγμα, οι ομάδες ήταν ιδιότητες που άλλαξαν χέρια και ιδιότητες που δεν είχαν), παρόλο που μια ομάδα είχε περισσότερες περιπτώσεις άλλα στα αρχικά δεδομένα.
Αργότερα, τα δεδομένα χωρίστηκαν, χωρίστηκαν σε ένα υποσύνολο για να χρησιμοποιηθούν για την εκπαίδευση ενός μοντέλου και άλλο για δοκιμή. Η χρήση μόνο ενός δείγματος δεδομένων σε παράλληλο παράθυρο συντεταγμένων μπορεί να διευκολύνει την προβολή και την ερμηνεία. (Scatterplots με χιλιάδες σημεία μπορεί να είναι δύσκολο να διαβαστούν!) Ίσως το πιο σημαντικό από όλα, η δειγματοληψία απλά μειώνει την ποσότητα των δεδομένων, έτσι τα πράγματα τρέχουν γρηγορότερα.