Πίνακας περιεχομένων:
- Τι είναι τα δεδομένα γραφημάτων;
- Η πιο γνωστή εφαρμογή για βάσεις δεδομένων γραφημάτων είναι ο αλγόριθμος PageRank της Google, ο οποίος υπολογίζει τις σχέσεις σύνδεσης όλων των γνωστών ιστοσελίδων. Η Google αντιπροσωπεύει τον ιστό ως ένα γιγαντιαίο γράφημα, όπου οι ιστοσελίδες είναι κόμβοι και οι συνδέσεις από τη μια σελίδα στην άλλη αντιπροσωπεύονται ως άκρα. (Η Google μοιράστηκε τον πλούτο με τη δημοσίευση ενός εγγράφου που περιγράφει το έργο ανάλυσης γραφημάτων με την ονομασία Pregel - back το 2010.) Η επεξεργασία γραφημάτων που η Google ενδιαφέρεται για τον υπολογισμό του αριθμού των εισερχόμενων συνδέσεων για κάθε ιστοσελίδα.
- Μια άλλη λύση επεξεργασίας γραφημάτων προέρχεται από την Aurelius, μια εταιρεία που έχει κυκλοφορήσει ένα σύνολο εργαλείων ανάλυσης γραφημάτων ανοικτής πηγής για τον Hadoop. Ο πυρήνας των προσφορών του είναι ο Titan, μια βάση δεδομένων με γραφικά που χρησιμοποιεί το HBase ως στρώμα εμμονής, το οποίο είναι βελτιστοποιημένο για διαδραστικά ερωτήματα, και ο Faunus, ένας μηχανισμός επεξεργασίας γραφημάτων που αποθηκεύει ένα στιγμιότυπο ενός γραφήματος από τον Titan σε HDFS και εκτελεί εργασίες MapReduce . Για αμφότερες τις εφαρμογές διαδραστικής (Titan) και παρτίδας (Faunus), ο Aurelius έχει το κοινό API γραφικών-traversal που ονομάζεται Gremlin.
Βίντεο: Word 2003 Expert - Δημιουργία και επεξεργασία γραφήματος 2024
Μια από τις πιο συναρπαστικές τεχνολογίες NoSQL που αναδύονται περιλαμβάνει την αποθήκευση και επεξεργασία δεδομένων γραφημάτων. Ίσως να πιστεύετε ότι αυτή η δήλωση είναι παλιά νέα επειδή οι επιστήμονες υπολογιστών έχουν αναπτύξει τεχνικές ανάλυσης γραφημάτων εδώ και δεκαετίες. Αυτό που λέτε μπορεί να είναι αληθινό, αλλά αυτό που είναι νέο είναι ότι χρησιμοποιώντας το Hadoop, μπορείτε να κάνετε ανάλυση γραφημάτων σε μεγάλη κλίμακα.
Τι είναι τα δεδομένα γραφημάτων;
Ένα γράφημα σε όρους δεδομένων είναι απλά μια παράσταση των μεμονωμένων οντοτήτων και των σχέσεών τους. Οι οντότητες ενός γράφου είναι γνωστές ως κόμβοι (ή κορυφές ) και οι σχέσεις μεταξύ οντοτήτων σε ένα γράφημα είναι γνωστές ως ακμές (ή >). Η παρουσίαση συνόλων δεδομένων σε ένα γράφημα, σε αντίθεση με τις παραδοσιακές σειρές και στήλες, καθιστά πολύ πιο εύκολη την επεξεργασία των δεδομένων σας με τρόπους που καθιστούν τις σχέσεις μεταξύ αντικειμένων κρυστάλλινες. Οι τυπικοί υπολογισμοί γραφημάτων αντιπροσωπεύονται από την συντομότερη απόσταση διαδρομής μεταξύ των πολλαπλών κόμβων στο γράφημά σας ή απλά από τον αριθμό των κόμβων που έχουν συνδέσεις συγκεκριμένου τύπου με έναν συγκεκριμένο κόμβο.
Η πιο γνωστή εφαρμογή για βάσεις δεδομένων γραφημάτων είναι ο αλγόριθμος PageRank της Google, ο οποίος υπολογίζει τις σχέσεις σύνδεσης όλων των γνωστών ιστοσελίδων. Η Google αντιπροσωπεύει τον ιστό ως ένα γιγαντιαίο γράφημα, όπου οι ιστοσελίδες είναι κόμβοι και οι συνδέσεις από τη μια σελίδα στην άλλη αντιπροσωπεύονται ως άκρα. (Η Google μοιράστηκε τον πλούτο με τη δημοσίευση ενός εγγράφου που περιγράφει το έργο ανάλυσης γραφημάτων με την ονομασία Pregel - back το 2010.) Η επεξεργασία γραφημάτων που η Google ενδιαφέρεται για τον υπολογισμό του αριθμού των εισερχόμενων συνδέσεων για κάθε ιστοσελίδα.
Μια μηχανή επεξεργασίας γραφικών μπορεί εύκολα να απαντήσει σε πολλά πρακτικά ερωτήματα για τους ιστότοπους κοινωνικών μέσων. Δύο παραδείγματα είναι ο τρόπος με τον οποίο το LinkedIn δείχνει ότι οι βαθμοί διαχωρισμού μεταξύ σας και άλλου χρήστη είναι ένας υπολογισμός της μικρότερης διαδρομής (ποια είναι η στενότερη σύνδεση μεταξύ δύο κόμβων;) και πως ο OkCupid δείχνει χρήστες με κοινά ενδιαφέροντα είναι ένα σύνολο υπολογισμών συνεργασίας φιλτραρίσματος (ποιες είναι οι συνηθέστερες συνδέσεις σε ένα συγκεκριμένο σύνολο κόμβων;).
Ανάλυση γραφημάτων σε HadoopΑπό την άνοιξη του 2014, η ανάλυση γραφημάτων για τον Hadoop παραμένει στα πρώτα στάδια της. Με την εμφάνιση του YARN στο Hadoop 2, η ανάλυση γραφημάτων και άλλες εξειδικευμένες τεχνικές επεξεργασίας θα γίνουν όλο και πιο δημοφιλείς στον Hadoop. Πολλοί από τους κοινωνικούς ιστότοπους που αναφέρονται σε αυτό το άρθρο χρησιμοποιούν τις δικές τους, ιδιόκτητες βάσεις δεδομένων για γραφήματα και μηχανές επεξεργασίας, αλλά το Facebook είναι διακεκριμένος χρήστης του Giraph. Λόγω της (σιωπηρής) σφραγίδας έγκρισης του Facebook, ο Giraph έχει γίνει μια δημοφιλής επιλογή για την ανάλυση γραφημάτων για τον Hadoop, αλλά έχει ορισμένους περιορισμούς. Είναι αποκλειστικά μια μηχανή επεξεργασίας επειδή φορτώνει τα δεδομένα ως γράφημα στη μνήμη του συμπλέγματος και είναι βελτιστοποιημένη για ερωτήματα προσανατολισμένα σε παρτίδες.
Μια άλλη λύση επεξεργασίας γραφημάτων προέρχεται από την Aurelius, μια εταιρεία που έχει κυκλοφορήσει ένα σύνολο εργαλείων ανάλυσης γραφημάτων ανοικτής πηγής για τον Hadoop. Ο πυρήνας των προσφορών του είναι ο Titan, μια βάση δεδομένων με γραφικά που χρησιμοποιεί το HBase ως στρώμα εμμονής, το οποίο είναι βελτιστοποιημένο για διαδραστικά ερωτήματα, και ο Faunus, ένας μηχανισμός επεξεργασίας γραφημάτων που αποθηκεύει ένα στιγμιότυπο ενός γραφήματος από τον Titan σε HDFS και εκτελεί εργασίες MapReduce. Για αμφότερες τις εφαρμογές διαδραστικής (Titan) και παρτίδας (Faunus), ο Aurelius έχει το κοινό API γραφικών-traversal που ονομάζεται Gremlin.
Τέλος, το έργο Apache Spark έχει την παράκαμψη GraphX, η οποία επιτρέπει την παραγωγή δεδομένων γραφημάτων και στη συνέχεια επεξεργασίας, όλα μέσα στο σκελετό Spark.