Βίντεο: ΠΟΛΑΚΗΣ: “ΔΕΝ ΑΝΟΙΓΟΥΜΕ MEMORIAL, ΑΛΛΑ ΕΝΑ ΑΞΙΟΠΡΕΠΕΣ ΝΟΣΟΚΟΜΕΙΟ” 2024
Η σωστή προβολή της ποιότητας των δεδομένων μπορεί να είναι πολύ δύσκολη υπόθεση στον κόσμο των μεγάλων δεδομένων. Με την πλειονότητα των μεγάλων πηγών δεδομένων, πρέπει να υποθέσετε ότι εργάζεστε με δεδομένα που δεν είναι καθαρές. Στην πραγματικότητα, η συντριπτική αφθονία φαινομενικά τυχαίων και αποσυνδεδεμένων δεδομένων σε ρεύματα δεδομένων κοινωνικών μέσων είναι ένα από τα πράγματα που το καθιστούν χρήσιμο για τις επιχειρήσεις.
Ξεκινάτε με την αναζήτηση πεταχωμάτων δεδομένων χωρίς να γνωρίζετε τι μπορείτε να βρείτε αφού αρχίσετε να αναζητάτε μοτίβα στα δεδομένα. Πρέπει να δεχτείτε το γεγονός ότι στα δεδομένα θα υπάρχει πολύ θόρυβος. Μόνο με την αναζήτηση και την αντιστοίχιση προτύπων θα μπορείτε να βρείτε μερικές σπίθες αλήθειας μέσα από μερικά πολύ βρώμικα δεδομένα.
Φυσικά, μερικές μεγάλες πηγές δεδομένων, όπως δεδομένα από ετικέτες RFID ή αισθητήρες, έχουν καλύτερα θεσπισμένους κανόνες από τα δεδομένα των κοινωνικών μέσων. Τα δεδομένα του αισθητήρα πρέπει να είναι σχετικά καθαρά, αν και μπορεί να αναμένετε κάποια λάθη. Είναι πάντα η ευθύνη σας όταν αναλύετε τεράστια ποσά δεδομένων για να σχεδιάσετε το επίπεδο ποιότητας αυτών των δεδομένων. Θα πρέπει να ακολουθήσετε μια προσέγγιση δύο φάσεων για την ποιότητα των δεδομένων:
Φάση 1 : Αναζητήστε μοτίβα σε μεγάλα δεδομένα χωρίς να ανησυχείτε για την ποιότητα των δεδομένων.
Φάση 2: Αφού εντοπίσετε τα μοτίβα σας και δημιουργήσετε αποτελέσματα που είναι σημαντικά για την επιχείρηση, εφαρμόστε τα ίδια πρότυπα ποιότητας δεδομένων που εφαρμόζετε στις παραδοσιακές πηγές δεδομένων σας. Θέλετε να αποφύγετε τη συλλογή και τη διαχείριση μεγάλων δεδομένων που δεν είναι σημαντικά για την επιχείρηση και ενδέχεται να καταστρέψουν άλλα στοιχεία δεδομένων στο Hadoop ή σε άλλες μεγάλες πλατφόρμες δεδομένων.
Καθώς αρχίζετε να ενσωματώνετε τα αποτελέσματα της μεγάλης ανάλυσης δεδομένων σας στην επιχειρηματική σας διαδικασία, αναγνωρίστε ότι τα δεδομένα υψηλής ποιότητας είναι απαραίτητα για μια επιχείρηση να λαμβάνει σωστές επιχειρηματικές αποφάσεις. Αυτό ισχύει τόσο για τα μεγάλα δεδομένα όσο και για τα παραδοσιακά δεδομένα.
Η ποιότητα των δεδομένων αναφέρεται σε χαρακτηριστικά σχετικά με τα δεδομένα, συμπεριλαμβανομένης της συνέπειας, της ακρίβειας, της αξιοπιστίας, της πληρότητας, της επικαιρότητας, της λογικής και της εγκυρότητας. Το λογισμικό ποιότητας δεδομένων διασφαλίζει ότι τα στοιχεία δεδομένων εκπροσωπούνται με τον ίδιο τρόπο σε διαφορετικές αποθήκες δεδομένων ή συστήματα, ώστε να αυξηθεί η συνοχή των δεδομένων.
Για παράδειγμα, ένα κατάστημα δεδομένων μπορεί να χρησιμοποιεί δύο γραμμές για τη διεύθυνση ενός πελάτη και ένα άλλο αποθηκευτικό χώρο μπορεί να χρησιμοποιεί μία γραμμή. Αυτή η διαφορά στον τρόπο με τον οποίο αντιπροσωπεύονται τα δεδομένα μπορεί να οδηγήσει σε ανακριβείς πληροφορίες σχετικά με τους πελάτες, όπως ένας πελάτης που προσδιορίζεται ως δύο διαφορετικοί πελάτες.
Μια εταιρεία μπορεί να χρησιμοποιεί δεκάδες παραλλαγές του εταιρικού της ονόματος όταν αγοράζει προϊόντα.Το λογισμικό ποιότητας δεδομένων μπορεί να χρησιμοποιηθεί για να εντοπίσει όλες τις παραλλαγές του ονόματος της εταιρείας στα διαφορετικά καταστήματα δεδομένων σας και να διασφαλίσει ότι γνωρίζετε όλα όσα αγοράζει αυτός ο πελάτης από την επιχείρησή σας.
Αυτή η διαδικασία ονομάζεται παρέχοντας μια ενιαία προβολή του πελάτη ή του προϊόντος. Το λογισμικό ποιότητας δεδομένων ταιριάζει με δεδομένα σε διάφορα συστήματα και καθαρίζει ή αφαιρεί πλεονάζοντα δεδομένα. Η διαδικασία ποιότητας δεδομένων παρέχει στην επιχείρηση πληροφορίες που είναι πιο εύχρηστες, ερμηνευτικές και κατανοητές.
Τα εργαλεία δημιουργίας προφίλ δεδομένων χρησιμοποιούνται στη διαδικασία ποιότητας δεδομένων για να σας βοηθήσουν να κατανοήσετε το περιεχόμενο, τη δομή και την κατάσταση των δεδομένων σας. Συλλέγουν πληροφορίες σχετικά με τα χαρακτηριστικά των δεδομένων σε μια βάση δεδομένων ή σε άλλο κατάστημα δεδομένων για να ξεκινήσουν τη διαδικασία μετατροπής των δεδομένων σε πιο αξιόπιστη μορφή. Τα εργαλεία αναλύουν τα δεδομένα για τον εντοπισμό σφαλμάτων και ασυνεπειών.
Μπορούν να κάνουν προσαρμογές για αυτά τα προβλήματα και να διορθώσουν τα λάθη. Τα εργαλεία ελέγχουν για αποδεκτές τιμές, μοτίβα και εύρη και βοηθούν στην αναγνώριση επικαλυπτόμενων δεδομένων. Η διαδικασία επεξεργασίας δεδομένων, για παράδειγμα, ελέγχει εάν τα δεδομένα αναμένεται να είναι άλφα ή αριθμητικά. Τα εργαλεία ελέγχουν επίσης για εξαρτήσεις ή για να δουν πώς τα δεδομένα σχετίζονται με δεδομένα από άλλες βάσεις δεδομένων.
Τα εργαλεία επεξεργασίας δεδομένων για μεγάλα δεδομένα έχουν μια παρόμοια λειτουργία με τα εργαλεία επεξεργασίας δεδομένων για παραδοσιακά δεδομένα. Τα εργαλεία επεξεργασίας δεδομένων για τον Hadoop θα σας δώσουν σημαντικές πληροφορίες σχετικά με τα δεδομένα των συμπλεγμάτων Hadoop. Αυτά τα εργαλεία μπορούν να χρησιμοποιηθούν για να αναζητήσουν αντιστοιχίσεις και να αφαιρέσουν τις επικαλύψεις. Ως αποτέλεσμα, μπορείτε να διασφαλίσετε ότι τα μεγάλα δεδομένα σας είναι συνεπή. Τα εργαλεία Hadoop όπως το HiveQL και το Pig Latin μπορούν να χρησιμοποιηθούν για τη διαδικασία μετασχηματισμού.