Πίνακας περιεχομένων:
- Κατανοώντας την ανάγκη δημιουργίας χαρακτηριστικών
- Μπορείτε να δημιουργήσετε αυτόματα ορισμένες νέες λειτουργίες.Ένας τρόπος για να επιτευχθεί αυτόματη δημιουργία χαρακτηριστικών είναι η χρήση πολυωνυμικής επέκτασης. Υπάρχουν ειδικοί τρόποι για την επίτευξη πολυωνυμικής επέκτασης, ώστε να δημιουργείτε αυτόματα τις λειτουργίες τόσο σε R όσο και σε Python. Προς το παρόν, πρέπει να κατανοήσετε τις έννοιες πίσω από την πολυωνυμική επέκταση.
Βίντεο: Cloud Computing - Computer Science for Business Leaders 2016 2024
Μερικές φορές τα πρωτογενή δεδομένα που λαμβάνετε από διάφορες πηγές δεν θα έχουν τα χαρακτηριστικά που απαιτούνται για την εκτέλεση εργασιών εκμάθησης μηχανών. Όταν συμβεί αυτό, πρέπει να δημιουργήσετε τα δικά σας χαρακτηριστικά για να αποκτήσετε το επιθυμητό αποτέλεσμα. Η δημιουργία μιας λειτουργίας δεν σημαίνει τη δημιουργία δεδομένων από λεπτό αέρα. Δημιουργείτε νέες λειτουργίες από υπάρχοντα δεδομένα.
Κατανοώντας την ανάγκη δημιουργίας χαρακτηριστικών
Ένας μεγάλος περιορισμός των αλγορίθμων μηχανικής μάθησης είναι ότι μπορεί να είναι αδύνατο να μαντέψετε έναν τύπο που θα μπορούσε να συνδέσει την απάντησή σας με τις λειτουργίες που χρησιμοποιείτε. Μερικές φορές αυτή η αδυναμία υπολογισμού συμβαίνει επειδή δεν μπορείτε να αντιστοιχίσετε την απόκριση χρησιμοποιώντας τις πληροφορίες που έχετε στη διάθεσή σας (πράγμα που σημαίνει ότι δεν έχετε τις σωστές πληροφορίες). Σε άλλες περιπτώσεις, οι πληροφορίες που παρέχετε δεν βοηθούν τον αλγόριθμο να μάθει σωστά.
Για παράδειγμα, αν διαμορφώνετε την τιμή των ακινήτων, η επιφάνεια της γης είναι αρκετά προβλέψιμη, επειδή οι μεγαλύτερες ιδιότητες τείνουν να κοστίζουν περισσότερο. Αλλά εάν αντί της επιφάνειας, παρέχετε τον αλγόριθμο μάθησης μηχανής με το μήκος των πλευρών της γης (τις συντεταγμένες γεωγραφικού πλάτους και μήκους των γωνιών της), ο αλγόριθμός σας μπορεί να μην καταλάβει τι να κάνει με τις πληροφορίες που παρείχατε. Μερικοί αλγόριθμοι θα καταφέρουν να βρουν τη σχέση μεταξύ των χαρακτηριστικών, αλλά οι περισσότεροι αλγόριθμοι δεν θα είναι.
Η απάντηση σε αυτό το πρόβλημα είναι η δημιουργία χαρακτηριστικών. Η δημιουργία χαρακτηριστικών είναι εκείνο το μέρος της μηχανικής μάθησης που θεωρείται περισσότερο ως τέχνη παρά μια επιστήμη, επειδή υπονοεί την ανθρώπινη παρέμβαση στην ανάμιξη δημιουργικών των υπαρχόντων χαρακτηριστικών. Εκτελείτε αυτό το έργο με την προσθήκη, αφαίρεση, πολλαπλασιασμό και αναλογία για να δημιουργήσετε νέα παράγωγα χαρακτηριστικά με περισσότερη προβλεπτική ισχύ από τα πρωτότυπα.
Η σωστή γνώση του προβλήματος και η κατανόηση του τρόπου με τον οποίο ένας άνθρωπος θα το λύσει είναι μέρος της δημιουργίας χαρακτηριστικών. Έτσι, συνδέοντας με το προηγούμενο παράδειγμα, το γεγονός ότι η επιφάνεια της γης συνδέεται με την τιμή του ακινήτου είναι κοινή γνώση. Εάν η επιφάνεια λείπει από τα χαρακτηριστικά σας όταν προσπαθείτε να μαντέψετε την αξία μιας ιδιότητας, μπορείτε να ανακτήσετε αυτές τις πληροφορίες από τα υπάρχοντα δεδομένα - και έτσι αυξάνετε την απόδοση των προβλέψεων.
Δημιουργία αυτόματων χαρακτηριστικώνΜπορείτε να δημιουργήσετε αυτόματα ορισμένες νέες λειτουργίες.Ένας τρόπος για να επιτευχθεί αυτόματη δημιουργία χαρακτηριστικών είναι η χρήση πολυωνυμικής επέκτασης. Υπάρχουν ειδικοί τρόποι για την επίτευξη πολυωνυμικής επέκτασης, ώστε να δημιουργείτε αυτόματα τις λειτουργίες τόσο σε R όσο και σε Python. Προς το παρόν, πρέπει να κατανοήσετε τις έννοιες πίσω από την πολυωνυμική επέκταση.
Στην πολυωνυμική επέκταση, δημιουργείτε αυτόματα αλληλεπιδράσεις μεταξύ των λειτουργιών καθώς και δημιουργείτε εξουσίες (για παράδειγμα, υπολογίζοντας το τετράγωνο ενός χαρακτηριστικού). Οι αλληλεπιδράσεις βασίζονται στον πολλαπλασιασμό των χαρακτηριστικών. Δημιουργώντας ένα νέο χαρακτηριστικό χρησιμοποιώντας τον πολλαπλασιασμό βοηθά να παρακολουθείτε τον τρόπο με τον οποίο τα χαρακτηριστικά τείνουν να συμπεριφέρονται στο σύνολό τους. Επομένως, βοηθά στη χαρτογράφηση σύνθετων σχέσεων μεταξύ των χαρακτηριστικών σας που μπορεί να υποδηλώνει ειδικές καταστάσεις.
Ένα καλό παράδειγμα αλληλεπίδρασης είναι ο θόρυβος που εκπέμπεται από ένα αυτοκίνητο και η τιμή του αυτοκινήτου. Οι καταναλωτές δεν εκτιμούν τα θορυβώδη αυτοκίνητα εκτός αν αγοράσουν ένα σπορ αυτοκίνητο, οπότε ο θόρυβος του κινητήρα είναι ένα συν αυτό που θυμίζει στον ιδιοκτήτη την ισχύ του αυτοκινήτου. Κάνει επίσης τους παρευρισκόμενους να παρατηρήσουν το δροσερό αυτοκίνητο, οπότε ο θόρυβος παίζει μεγάλο ρόλο στην απόκτηση, καθώς ο θόρυβος σίγουρα θα προσελκύσει την προσοχή των άλλων. Από την άλλη πλευρά, ο θόρυβος όταν οδηγείτε ένα οικογενειακό αυτοκίνητο δεν είναι τόσο δροσερό.
Σε μια εφαρμογή εκμάθησης μηχανών, προσπαθώντας να προβλέψουμε το ποσοστό προτιμήσεων για ένα συγκεκριμένο αυτοκίνητο, χαρακτηριστικά όπως ο θόρυβος και η τιμή του αυτοκινήτου είναι προγνωστικά από μόνα τους. Ωστόσο, ο πολλαπλασιασμός των δύο τιμών και η προσθήκη τους στο σύνολο των χαρακτηριστικών μπορεί να υποδηλώνει κατηγορηματικά σε έναν αλγόριθμο μάθησης ότι ο στόχος είναι ένα σπορ αυτοκίνητο (όταν πολλαπλασιάζετε τα υψηλά επίπεδα θορύβου με μια υψηλή τιμή).
Εξουσιοδοτεί τη βοήθεια δημιουργώντας μη γραμμικές σχέσεις μεταξύ της απόκρισης και των χαρακτηριστικών, υπονοώντας συγκεκριμένες καταστάσεις.
Ως ένα άλλο παράδειγμα, φανταστείτε ότι πρέπει να προβλέψετε τα ετήσια έξοδα ενός ατόμου. Η ηλικία είναι μια καλή πρόβλεψη επειδή, καθώς οι άνθρωποι γερνούν και ωριμάζουν, αλλάζουν και η ζωή και η οικογενειακή τους κατάσταση. Οι μαθητές ξεκινούν φτωχούς, αλλά στη συνέχεια βρίσκουν εργασία και μπορούν να οικοδομήσουν μια οικογένεια. Από γενική άποψη, τα έξοδα τείνουν να αυξάνονται όσο και η ηλικία μέχρι κάποιο σημείο. Η συνταξιοδότηση συνήθως σηματοδοτεί ένα σημείο στο οποίο τα έξοδα τείνουν να μειώνονται. Η ηλικία περιέχει τέτοιες πληροφορίες, αλλά είναι ένα χαρακτηριστικό που τείνει να αναπτυχθεί και η σχετική δαπάνη για την ανάπτυξή της δεν βοηθά στην περιγραφή της αντιστροφής που συμβαίνει σε μια ορισμένη ηλικία.
Η προσθήκη της τετραγωνικής διάταξης βοηθά στη δημιουργία αντιμέτρου στην ίδια την ηλικία, η οποία είναι μικρή στην αρχή αλλά μεγαλώνει γρήγορα με την ηλικία. Το τελικό αποτέλεσμα είναι μια παραβολή, με μια αρχική ανάπτυξη που χαρακτηρίζεται από μια κορυφή των δαπανών σε μια ορισμένη ηλικία, και στη συνέχεια μια μείωση.
Όπως αναφέρθηκε αρχικά, γνωρίζοντας εκ των προτέρων μια τέτοια δυναμική (θόρυβος και σπορ αυτοκίνητο, κατανάλωση και ηλικία μεγαλύτερης ηλικίας) μπορεί να σας βοηθήσει να δημιουργήσετε τα σωστά χαρακτηριστικά. Αλλά αν δεν γνωρίζετε εκ των προτέρων αυτή τη δυναμική, η πολυωνυμική επέκταση θα τις δημιουργήσει αυτόματα για σας επειδή, με δεδομένη σειρά, θα δημιουργήσει αλληλεπιδράσεις και εξουσίες αυτής της τάξης. Η παραγγελία θα επισημάνει τον αριθμό των πολλαπλασιασμών και τη μέγιστη ισχύ που θα εφαρμοστούν στις υπάρχουσες λειτουργίες.
Επομένως, μια πολυωνυμική επέκταση της τάξης 2 αυξάνει όλα τα χαρακτηριστικά στη δεύτερη ισχύ και πολλαπλασιάζει κάθε χαρακτηριστικό από όλα τα άλλα. (Μπορείτε να πάρετε τον πολλαπλασιασμό όλων των συνδυασμών των δύο χαρακτηριστικών.) Είναι σαφές ότι όσο μεγαλύτερος είναι ο αριθμός, τόσο περισσότερες νέες δυνατότητες θα δημιουργηθούν, αλλά πολλές από αυτές θα είναι περιττές και θα συμβάλουν απλώς στη μετατροπή των δεδομένων σας στον αλγόριθμο μάθησης μηχανής.
Όταν χρησιμοποιείτε πολυωνυμική επέκταση, πρέπει να δώσετε προσοχή στην έκρηξη των χαρακτηριστικών που δημιουργείτε. Οι δυνάμεις αυξάνουν γραμμικά, οπότε αν έχετε πέντε χαρακτηριστικά και χρειάζεστε επέκταση της σειράς 2, κάθε χαρακτηριστικό αυξάνεται μέχρι τη δεύτερη ισχύ. Η αύξηση της τάξης ενός προσθέτει ένα νέο χαρακτηριστικό ισχύος για κάθε πρωτότυπο χαρακτηριστικό. Αντ 'αυτού, οι αλληλεπιδράσεις αυξάνονται με βάση συνδυασμούς των λειτουργιών μέχρι την εν λόγω σειρά.
Στην πραγματικότητα, με πέντε χαρακτηριστικά και πολυωνυμική επέκταση της σειράς 2, δημιουργούνται και οι δέκα μοναδικοί συνδυασμοί της σύζευξης των χαρακτηριστικών. Η αύξηση της παραγγελίας σε 3 θα απαιτήσει τη δημιουργία όλων των μοναδικών συνδυασμών δύο μεταβλητών, συν τους μοναδικούς συνδυασμούς τριών μεταβλητών, δηλαδή 20 χαρακτηριστικών.