Βίντεο: Εισαγωγή στις Δομές Δεδομένων-Πίνακες 2024
Η εξόρυξη δεδομένων έχει πολύ αυστηρές απαιτήσεις για την οργάνωση δεδομένων. Δεν είναι εξωτικές, πολύπλοκες ή δύσκολες απαιτήσεις για να συναντηθούν, αλλά είναι αυστηρές. Το σχήμα δείχνει ένα δείγμα δεδομένων που εμφανίζεται ως πίνακας στο λογισμικό εξόρυξης δεδομένων.
Κάθε σειρά αντιπροσωπεύει ένα αγροτεμάχιο. Πληροφορίες σχετικά με τα αγροτεμάχια είναι οργανωμένες σε στήλες. Η πρώτη στήλη περιέχει τον αριθμό φορολογικού μητρώου (TAXKEY), η δεύτερη στήλη περιέχει την εκτιμώμενη αξία της γης από προηγούμενη αξιολόγηση (P_A_LAND) κ.ο.κ.
Κάθε καταχώρηση σε οποιαδήποτε σειρά αφορά ένα συγκεκριμένο αγροτεμάχιο. Κάθε καταχώρηση σε οποιαδήποτε στήλη είναι ο ίδιος τύπος πληροφοριών. Δεν υπάρχουν γραμμές ή στήλες κενές για λόγους σχετικούς με το στυλ και την αναγνωσιμότητα. Αυτά τα δεδομένα είναι κατάλληλα οργανωμένα για τη διερεύνηση των διαφορών μεταξύ των αγροτεμαχίων.
Αν, αντί για ακίνητα, διερευνήσετε ανθρώπους, κάθε άτομο θα εκπροσωπείται από μια σειρά δεδομένων και όλες οι λεπτομέρειες σχετικά με τον κόσμο θα είναι οργανωμένες σε στήλες. Εάν διερευνήσετε τις ακτίνες Χ στο θώρακα, κάθε ακτινογραφία θώρακα θα αντιπροσωπευόταν από μια σειρά στα δεδομένα και όλες οι λεπτομέρειες σχετικά με τις ακτίνες Χ θα ήταν οργανωμένες σε στήλες.
Στην ορολογία της ανάλυσης δεδομένων, τα πράγματα που μελετάτε - τα πράγματα στις σειρές - ονομάζονται περιπτώσεις ή εγγραφές. Και οι λεπτομέρειες για αυτές, οι οποίες βρίσκονται στις στήλες, καλούνται μεταβλητές . Θα ακούσετε επίσης τις στήλες που ονομάζονται πεδία , ειδικά στο πλαίσιο των βάσεων δεδομένων.
Επομένως, η εξόρυξη δεδομένων απαιτεί δεδομένα οργανωμένα με μία μόνο σειρά για κάθε περίπτωση και μία στήλη για κάθε μεταβλητή. Πολλές πηγές δεδομένων οργανώνονται ήδη με αυτόν τον τρόπο. Οι στατιστικοί οργανώνουν δεδομένα με αυτόν τον τρόπο από συνήθεια. Οι επαγγελματίες των βάσεων δεδομένων μπορεί να μην χρησιμοποιούν αυτή την προσέγγιση για μεγάλο μέρος της δουλειάς τους, αλλά συνήθως θα καταλάβουν τι θέλετε αν το ονομάσετε επίπεδη τραπέζι .
Θα βρείτε λεπτές παραλλαγές στη δομή δεδομένων. Ορισμένοι τύποι λογισμικού χρησιμοποιούν περιγραφικές πληροφορίες σε μια κεφαλίδα πριν από τα δεδομένα, όπως ορισμένες μορφές ειδικότητας που σχετίζονται με τις εφαρμογές εξόρυξης δεδομένων Orange και Weka. Ορισμένες σύνθετες αναλυτικές διαδικασίες έχουν επιπρόσθετες ή ελαφρώς ποικίλες απαιτήσεις (αυτές είναι αρκετά ασυνήθιστες). Αλλά ο πυρήνας των δεδομένων εξακολουθεί να έχει τις περιπτώσεις σε σειρές και μεταβλητές σε στήλες.