Η ανθρώπινη φυλή βρίσκεται τώρα σε μια απίστευτη διασταύρωση πρωτοφανών όγκων δεδομένων που παράγονται από όλο και μικρότερο και ισχυρότερο υλικό και αναλύονται με αλγόριθμους ότι αυτό το ίδιο διαδικασία βοήθησε να αναπτυχθεί. Δεν είναι απλά θέμα όγκου, το οποίο από μόνο του είναι μια δύσκολη πρόκληση.
Όπως έχει επισημοποιηθεί από την ερευνητική εταιρεία Gartner το 2001 και στη συνέχεια επαναπροσδιορίστηκε και επεκτάθηκε από άλλες εταιρείες, όπως η IBM, τα μεγάλα δεδομένα μπορούν να συνοψιστούν με τέσσερα V s που αντιπροσωπεύουν τα βασικά χαρακτηριστικά τους:
Όγκος: Η ποσότητα δεδομένων
Ταχύτητα: Ταχύτητα δημιουργίας δεδομένων
Ποικιλία: :
Η ποιότητα και η αυθεντική φωνή των δεδομένων (ποσοτικοποίηση σφαλμάτων, κακά δεδομένα και θόρυβος που αναμιγνύεται με σήματα), ένα μέτρο της αβεβαιότητας των δεδομένων Κάθε μεγάλο χαρακτηριστικό δεδομένων προσφέρει μια πρόκληση και μια ευκαιρία. Για παράδειγμα, ο όγκος εξετάζει το ποσό των χρήσιμων δεδομένων. Τι μια οργάνωση θεωρεί μεγάλα δεδομένα μπορεί να είναι μικρά δεδομένα για ένα άλλο. Η αδυναμία επεξεργασίας των δεδομένων σε ένα μόνο μηχάνημα δεν κάνει τα δεδομένα μεγάλα. Αυτό που διαφοροποιεί τα μεγάλα δεδομένα από τα δεδομένα των καθημερινών συναλλαγών είναι ότι αναγκάζει έναν οργανισμό να αναθεωρεί τις μεθόδους και τις λύσεις που επικρατεί και ωθεί τις σύγχρονες τεχνολογίες και αλγόριθμους να κοιτάξουν μπροστά.
Wired
κατά το χρόνο, σχετικά με το πόσο μεγάλα ποσά δεδομένων μπορούν να βοηθήσουν τις επιστημονικές ανακαλύψεις εκτός της επιστημονικής μεθόδου. Ο συγγραφέας βασίζεται στο παράδειγμα της Google στους τομείς της διαφήμισης και της μετάφρασης, όπου η εταιρεία θα μπορούσε να επιτύχει προβολή χωρίς τη χρήση συγκεκριμένων μοντέλων ή θεωριών, αλλά με την εφαρμογή αλγορίθμων για να μάθει από δεδομένα. Όπως και στη διαφήμιση, τα δεδομένα της επιστήμης (φυσικής, βιολογίας) μπορούν να υποστηρίξουν την καινοτομία που επιτρέπει στους επιστήμονες να προσεγγίζουν τα προβλήματα χωρίς υποθέσεις αλλά εξετάζοντας τις παραλλαγές που υπάρχουν σε μεγάλες ποσότητες δεδομένων και αλγορίθμους ανακάλυψης.
Το χαρακτηριστικό της ακρίβειας βοηθά τον ίδιο τον εκδημοκρατισμό των δεδομένων. Στο παρελθόν, οι οργανισμοί συνέχισαν να αποθηκεύουν δεδομένα επειδή ήταν πολύτιμες και δύσκολο να αποκτηθούν. Σε αυτό το σημείο, διάφορες πηγές δημιουργούν δεδομένα σε τόσο αυξανόμενα ποσά, ώστε η αποθησαυγή τους δεν έχει νόημα (το 90% των παγκόσμιων δεδομένων έχει δημιουργηθεί τα τελευταία δύο χρόνια), οπότε δεν υπάρχει κανένας λόγος να περιοριστεί η πρόσβαση. Τα δεδομένα μετατρέπονται σε ένα τέτοιο εμπόρευμα ότι υπάρχουν πολλά ανοιχτά προγράμματα δεδομένων που διακινούνται σε όλο τον κόσμο.(Οι Ηνωμένες Πολιτείες έχουν μακρά παράδοση ανοικτής πρόσβασης · τα πρώτα ανοιχτά προγράμματα δεδομένων χρονολογούνται από τη δεκαετία του 1970, όταν η Εθνική Υπηρεσία Ωκεανών και Ατμοσφαιρικής Διοίκησης, NOAA, άρχισε να απελευθερώνει ελεύθερα τα δεδομένα καιρού για το κοινό.) Ωστόσο, επειδή τα δεδομένα έχουν γίνει εμπόρευμα, η αβεβαιότητα των στοιχείων αυτών έχει καταστεί ζήτημα. Δεν γνωρίζετε πλέον εάν τα δεδομένα είναι απολύτως αληθή, διότι ίσως δεν γνωρίζετε ούτε την πηγή τους.
Τα δεδομένα έχουν γίνει τόσο πανταχού παρόν, ώστε η αξία τους δεν περιλαμβάνεται πλέον στις πραγματικές πληροφορίες (όπως τα δεδομένα που είναι αποθηκευμένα στη βάση δεδομένων μιας επιχείρησης). Η αξία των δεδομένων υπάρχει στο πώς το χρησιμοποιείτε. Εδώ οι αλγόριθμοι μπαίνουν στο παιχνίδι και αλλάζουν το παιχνίδι. Μια εταιρεία όπως η Google τροφοδοτείται από ελεύθερα διαθέσιμα δεδομένα, όπως το περιεχόμενο των ιστότοπων ή το κείμενο που βρέθηκαν σε διαθέσιμα στο κοινό κείμενα και βιβλία. Ωστόσο, η αξία που αποκομίζει η Google από τα δεδομένα προέρχεται κυρίως από τους αλγόριθμους της. Για παράδειγμα, η τιμή των δεδομένων βρίσκεται στον αλγόριθμο PageRank (που απεικονίζεται στο Κεφάλαιο 11), το οποίο είναι το θεμέλιο της επιχείρησης της Google. Η αξία των αλγορίθμων ισχύει και για άλλες εταιρείες. Η μηχανή σύστασης του Amazon συνεισφέρει σημαντικό μέρος των εσόδων της εταιρείας. Πολλές χρηματοπιστωτικές επιχειρήσεις χρησιμοποιούν αλγοριθμικές συναλλαγές και ρομποτικές συμβουλές, αξιοποιώντας ελεύθερα διαθέσιμα στοιχεία αποθεμάτων και οικονομικές πληροφορίες για επενδύσεις.