Βίντεο: Disruption - Day 2 - Part 1 (ENG) 2024
Η αλληλεπίδραση με δεδομένα από μία μόνο πηγή είναι ένα πρόβλημα. η αλληλεπίδραση με δεδομένα από διάφορες πηγές είναι κάτι άλλο. Ωστόσο, τα σύνολα δεδομένων σήμερα γενικά προέρχονται από περισσότερες από μία πηγές, οπότε πρέπει να κατανοήσετε τις επιπλοκές που μπορεί να προκαλέσει η χρήση πολλών πηγών δεδομένων. Όταν εργάζεστε με πολλές πηγές δεδομένων, πρέπει να κάνετε τα εξής:
- Προσδιορίστε εάν και τα δύο σύνολα δεδομένων περιέχουν όλα τα απαιτούμενα δεδομένα. Δύο σχεδιαστές είναι απίθανο να δημιουργήσουν σύνολα δεδομένων που περιέχουν ακριβώς τα ίδια δεδομένα, στην ίδια μορφή, του ίδιου τύπου και με την ίδια σειρά. Συνεπώς, θα πρέπει να εξετάσετε αν τα σύνολα δεδομένων παρέχουν τα δεδομένα που χρειάζεστε ή εάν πρέπει να επανορθώσετε τα δεδομένα με κάποιο τρόπο για να αποκτήσετε το επιθυμητό αποτέλεσμα.
- Ελέγξτε και τα δύο σύνολα δεδομένων για θέματα τύπου δεδομένων. Ένα σύνολο δεδομένων θα μπορούσε να έχει ημερομηνίες εισόδου ως συμβολοσειρές και ένα άλλο θα μπορούσε να έχει τις ημερομηνίες εισόδου ως αντικείμενα πραγματικής ημερομηνίας. Οι ασυνέπειες μεταξύ των τύπων δεδομένων θα προκαλέσουν προβλήματα για έναν αλγόριθμο που αναμένει δεδομένα σε μία μορφή και τα λαμβάνει σε άλλο.
- Βεβαιωθείτε ότι όλα τα σύνολα δεδομένων έχουν την ίδια σημασία στα στοιχεία δεδομένων. Τα δεδομένα που δημιουργούνται από μια πηγή μπορεί να έχουν διαφορετική σημασία από τα δεδομένα που δημιουργούνται από άλλη πηγή. Για παράδειγμα, το μέγεθος ενός ακέραιου αριθμού μπορεί να διαφέρει από πηγές, επομένως ίσως δείτε έναν ακέραιο 16 bit από μια πηγή και έναν ακέραιο 32-bit από τον άλλο. Οι χαμηλότερες τιμές έχουν την ίδια έννοια, αλλά ο ακέραιος αριθμός 32-bit μπορεί να περιέχει μεγαλύτερες τιμές, οι οποίες μπορούν να προκαλέσουν προβλήματα με τον αλγόριθμο. Οι ημερομηνίες μπορούν επίσης να προκαλέσουν προβλήματα επειδή βασίζονται συχνά στην αποθήκευση τόσων πολλών χιλιοστών από μια δεδομένη ημερομηνία (όπως το JavaScript, το οποίο αποθηκεύει τον αριθμό των χιλιοστών του δευτερολέπτου από την 01 Ιανουαρίου, 1970 UTC). Ο υπολογιστής βλέπει μόνο αριθμούς. οι άνθρωποι προσθέτουν νόημα σε αυτούς τους αριθμούς, έτσι ώστε οι εφαρμογές να τις ερμηνεύουν με συγκεκριμένους τρόπους.
- Επαληθεύστε τα χαρακτηριστικά των δεδομένων. Τα στοιχεία δεδομένων έχουν συγκεκριμένα χαρακτηριστικά. Αυτή η ερμηνεία μπορεί να αλλάξει όταν χρησιμοποιείτε
numpy
. Στην πραγματικότητα, διαπιστώνετε ότι τα χαρακτηριστικά γνωρίσματα δεδομένων αλλάζουν μεταξύ περιβαλλόντων και οι προγραμματιστές μπορούν να τις αλλάξουν ακόμη περισσότερο δημιουργώντας προσαρμοσμένους τύπους δεδομένων. Για να συνδυάσετε δεδομένα από διάφορες πηγές, πρέπει να κατανοήσετε αυτά τα χαρακτηριστικά για να βεβαιωθείτε ότι έχετε ερμηνεύσει σωστά τα δεδομένα.
Όσο μεγαλύτερος είναι ο χρόνος που ξοδεύετε για την επαλήθευση της συμβατότητας των δεδομένων από κάθε πηγή που θέλετε να χρησιμοποιήσετε για ένα σύνολο δεδομένων, τόσο λιγότερο πιθανό είναι να αντιμετωπίσετε προβλήματα κατά την εργασία με έναν αλγόριθμο. Τα ζητήματα ασυμβατότητας δεδομένων δεν εμφανίζονται πάντα ως οριστικά σφάλματα. Σε ορισμένες περιπτώσεις, μια ασυμβατότητα μπορεί να προκαλέσει άλλα ζητήματα, όπως τα παραπλανητικά αποτελέσματα που φαίνονται σωστά αλλά παρέχουν παραπλανητικές πληροφορίες.
Ο συνδυασμός δεδομένων από πολλαπλές πηγές μπορεί να μην σημαίνει πάντα τη δημιουργία ενός νέου συνόλου δεδομένων που μοιάζει ακριβώς με τα σύνολα δεδομένων προέλευσης. Σε ορισμένες περιπτώσεις, δημιουργείτε συγκεντρωτικά δεδομένα ή εκτελείτε άλλες μορφές χειραγώγησης για να δημιουργήσετε νέα δεδομένα από τα υπάρχοντα δεδομένα. Η ανάλυση παίρνει όλα τα είδη των μορφών, και μερικές από τις πιο εξωτικές μορφές μπορεί να παράγουν τρομερά σφάλματα όταν χρησιμοποιούνται εσφαλμένα. Για παράδειγμα, μια πηγή δεδομένων θα μπορούσε να παρέχει γενικές πληροφορίες για τον πελάτη και μια δεύτερη πηγή δεδομένων θα μπορούσε να παρέχει τις συνήθειες αγοράς των πελατών. Οι αναντιστοιχίες μεταξύ των δύο πηγών ενδέχεται να ταιριάζουν με τους πελάτες με λανθασμένες πληροφορίες περί συνήθειας αγορών και να προκαλούν προβλήματα όταν προσπαθείτε να διαθέσετε νέα προϊόντα σε αυτούς τους πελάτες. Ως ακραίο παράδειγμα, σκεφτείτε τι θα συνέβαινε όταν συνδυάσατε τις πληροφορίες ασθενούς από διάφορες πηγές και δημιουργώντας συνδυασμένες καταχωρήσεις ασθενών σε μια νέα πηγή δεδομένων με όλα τα είδη αναντιστοιχιών. Ένας ασθενής χωρίς ιστορικό κάποιας ασθένειας θα μπορούσε να καταλήξει σε αρχεία που να δείχνουν τη διάγνωση και τη φροντίδα της νόσου.