Πίνακας περιεχομένων:
- Διασφάλιση ποιότητας δεδομένων: μέρος I
- Εκτελέστε τα ενοποιημένα, μετασχηματισμένα δεδομένα μέσω του ίδιου τύπου βήματα QA που συζητήσαμε εδώ. Παρόλο που πιθανότατα δεν βρείτε τόσο στοιχειώδη σφάλματα (όπως ορθογραφικά λάθη ή τιμές που είναι εκτός εμβέλειας), εάν κάνατε μια διεξοδική δουλειά στο QA πρώτου επιπέδου, θέλετε να είστε βέβαιοι. Επιπλέον, βεβαιωθείτε ότι ο κώδικας ή τα σενάρια που χρησιμοποιήθηκαν για τον μετασχηματισμό δεδομένων δεν προκάλεσαν τυχαία νέα σφάλματα.
Βίντεο: Disruption - Day 1 - Part 1 (ENG) 2025
Θα πρέπει να δημιουργήσετε δύο διαφορετικές υπηρεσίες διασφάλισης ποιότητας (QA) στη ροή των υπηρεσιών middleware. Πρέπει να εκτελέσετε τις πρώτες εργασίες QA ενάντια στο απόσπασμα από την πηγή δεδομένων πριν εκτελέσετε άλλες υπηρεσίες middleware.
Διασφάλιση ποιότητας δεδομένων: μέρος I
Προσπαθήστε να εντοπίσετε (και να διορθώσετε) τα σφάλματα και τα προβλήματα όσο το δυνατόν νωρίτερα στη διαδικασία. Η μετακίνηση δεδομένων κάτω από τον αγωγό προς την αποθήκη δεδομένων είναι άσκοπη εάν τα προβλήματα είναι τόσο σημαντικά που είτε απαιτούν πολύ μεγαλύτερη προσπάθεια για να διορθωθούν αργότερα στη διαδικασία είτε απλά δεν μπορούν να διορθωθούν.
Λοιπόν, ποια είδη προβλημάτων πρέπει να αναζητήσετε; Εδώ είναι μερικά:
-
Αξίες σε στοιχεία δεδομένων που υπερβαίνουν ένα εύλογο εύρος: Ένας πελάτης έχει υποβάλει 150 εκατομμύρια παραγγελίες τον τελευταίο μήνα, για παράδειγμα, ή ένας υπάλληλος έχει συνεργαστεί με την εταιρεία για 4, 297 χρόνια, σύμφωνα με τη βάση δεδομένων των εργαζομένων και την αποθηκευμένη ημερομηνία πρόσληψης.
-
Οι τιμές σε στοιχεία δεδομένων που δεν ταιριάζουν στον επίσημο και πλήρη κατάλογο των επιτρεπόμενων τιμών: Μια τιμή μπορεί να έχει έναν κωδικό Α, για παράδειγμα, όταν οι μόνες επιτρεπτές τιμές για το πεδίο είναι Μ και F. (Εάν αυτό το πεδίο χαρακτηρίστηκε ως ΦΥΛΛΟ, Α μπορεί να είναι ανδρογόνο!)
-
Αντιστοιχίες σταυροειδών τραπεζιών: Για καταχωρήσεις στον πίνακα CUSTOMER_ORDER, δεν υπάρχουν αντίστοιχες καταχωρήσεις (όπως προσδιορίζονται από το CUSTOMER_ID) στο CUSTOMER_MASTER_TABLE.
-
Αντιφάσεις μεταξύ πεδίων: Αρχεία που έχουν εσφαλμένη κατάσταση ή ταχυδρομικό κώδικα για την πόλη που υποδεικνύεται.
-
Λείπουν τιμές: Αρχεία που έχουν ελλείπουσες τιμές σε ορισμένα πεδία όπου πρέπει να έχουν περιεχόμενο.
-
Ανεπαρκείς πληροφορίες: Εάν πληροφορίες για κάθε προϊόν που πωλεί η εταιρεία υποτίθεται ότι είναι διαθέσιμη, για παράδειγμα, είναι όλα τα προϊόντα που περιλαμβάνονται στο απόσπασμα;
-
Παραβίαση επιχειρηματικών κανόνων: Εάν ένας επιχειρηματικός κανόνας ορίζει ότι μόνο ένας έμπορος χονδρικής πώλησης μπορεί να πουλήσει προϊόντα σε οποιονδήποτε από τους πελάτες της εταιρείας, θα πρέπει να ελέγξετε αν τα αρχεία πελατών υποδεικνύουν πωλήσεις μέσω διαφόρων χονδρεμπόρων μπορεί να υποδεικνύει λανθασμένα δεδομένα στην πηγή.
-
Διαφθορά δεδομένων από το τελευταίο απόσπασμα: Εάν η εξαγωγή γίνεται μηνιαία, για παράδειγμα, θα πρέπει να παρακολουθείτε τις τιμές δεδομένων ή τα ποσά που πρέπει να είναι σταθερά, όπως ΠΩΛΗΣΕΙΣ ΑΝΑ ΠΕΛΑΤΗ ανά μήνα.Εάν σε επόμενο μήνα η τιμή των ΠΩΛΗΣΕΩΝ ανά πελάτη ανά μήνα αλλάζει για έναν συγκεκριμένο πελάτη για έναν προηγούμενο μήνα, τα υποκείμενα δεδομένα ενδέχεται να έχουν καταστραφεί.
-
Αντιφάσεις ορθογραφίας: Για παράδειγμα, το όνομα του πελάτη γράφεται με διάφορους τρόπους.
-
Τι κάνετε όταν βρίσκετε προβλήματα; Μπορείτε να δοκιμάσετε μία από τις παρακάτω τεχνικές: Εφαρμόστε έναν κανόνα αυτόματης διόρθωσης.
Όταν βρίσκετε μια ασυνεπή ορθογραφία, για παράδειγμα, κάνετε μια αναζήτηση σε ένα κύριο πίνακα των προηγούμενων ορθογραφικών διορθώσεων και κάνετε αυτόματα την αλλαγή στα δεδομένα.
-
Αφαιρέστε την εγγραφή για να αναλύσει και να διορθώσει αργότερα ένα μέλος της ομάδας. Σε αυτή την περίπτωση, μπορεί να κάνετε το ανθρώπινο τμήμα της QA σε συνδυασμό με την αυτόματη διόρθωση.
-
Για παράδειγμα, πραγματοποιούνται αυτόματες διορθώσεις, εάν είναι δυνατόν, και μια αναφορά για άλλα προβλήματα τοποθετείται σε ξεχωριστό αρχείο και αποστέλλεται στο άτομο QA. Όταν το άτομο QA κάνει όλες τις χειροκίνητες διορθώσεις, συγχωνεύετε τις διορθώσεις πίσω στα δεδομένα που έχουν περάσει από την αυτόματη διαδικασία QA. Ψύξτε τα τζετ σας.
Εάν ανακαλύψετε αρκετά προβλήματα που είναι σοβαρά ή απαιτούν μια απροσδόκητη έρευνα, θεωρήστε να σταματήσετε ολόκληρη τη διαδικασία μέχρι να βρείτε και να διορθώσετε το πρόβλημα.
-
Μπορείτε να κάνετε την διαδικασία QA πολύ πιο αποτελεσματική και πολύ λιγότερο προβληματική εάν πραγματοποιήσετε μια λεπτομερή ανάλυση συστημάτων πηγής. Εάν έχετε μια αρκετά καλή ιδέα σχετικά με τους τύπους προβλημάτων δεδομένων που μπορείτε να βρείτε σε κάθε πηγή δεδομένων, μπορείτε να επαναπρογραμματίσετε τη διαδικασία QA για να ανιχνεύσετε και (ελπίζουμε) να διορθώσετε αυτά τα προβλήματα προτού συνεχίσετε. Ιστορικά, οι οργανώσεις αντιμετώπισαν τη διαδικασία QA της αποθήκης δεδομένων ως ροή ενός κατεύθυνσης. Τα προβλήματα διορθώνονται πριν τα δεδομένα μεταφερθούν περαιτέρω στη ροή των διαδικασιών του μεσαίου λογισμικού, αλλά ποτέ δεν διορθώνονται στις πηγές δεδομένων. Οι περισσότερες νέες αποθήκες δεδομένων έχουν ενσωματωμένο βρόχο ανατροφοδότησης από τη διαδικασία QA που διορθώνει τα προβλήματα ποιότητας δεδομένων στα δεδομένα προέλευσης.
Διασφάλιση ποιότητας δεδομένων: μέρος ΙΙ
Μετά την ολοκλήρωση των διαδικασιών μετασχηματισμού, τα δεδομένα πρέπει να είναι QA'd - και πάλι. Ποτέ δεν γνωρίζετε τι είδους σφάλματα ή αποκλίσεις μπορεί να έχει εισαγάγει η διαδικασία μετασχηματισμού στα δεδομένα. Αφού έχουν συμβεί αλλαγές, οι προηγούμενες διαδικασίες QA δεν ισχύουν πλέον.
Εκτελέστε τα ενοποιημένα, μετασχηματισμένα δεδομένα μέσω του ίδιου τύπου βήματα QA που συζητήσαμε εδώ. Παρόλο που πιθανότατα δεν βρείτε τόσο στοιχειώδη σφάλματα (όπως ορθογραφικά λάθη ή τιμές που είναι εκτός εμβέλειας), εάν κάνατε μια διεξοδική δουλειά στο QA πρώτου επιπέδου, θέλετε να είστε βέβαιοι. Επιπλέον, βεβαιωθείτε ότι ο κώδικας ή τα σενάρια που χρησιμοποιήθηκαν για τον μετασχηματισμό δεδομένων δεν προκάλεσαν τυχαία νέα σφάλματα.
Ο στόχος αυτού του QA δευτέρου επιπέδου είναι να βεβαιωθείτε ότι τα ενοποιημένα και μετασχηματισμένα δεδομένα σας είναι έτοιμα να φορτωθούν στο αποθήκη δεδομένων - μόλις συμβεί ένα ακόμα βήμα, αν είναι απαραίτητο.