Η νέα προσέγγιση του OpenAI για την εκμάθηση απομίμησης με ένα πλάνο, μια ματιά στο μέλλον της AI

One-Shot Imitation Learning Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

Στις 16 Μαΐου, οι ερευνητές του OpenAI μοιράστηκαν ένα βίντεο από ένα από τα έργα τους, μαζί με δύο έγγραφα σπουδαιότητας που διερευνούν λύσεις σε τρία βασικά σημεία συμφόρησης της τρέχουσας ανάπτυξης AI: μετα-μάθηση, εκμάθηση με ένα πλάνο και αυτοματοποιημένη παραγωγή δεδομένων. Στην προηγούμενη δημοσίευσή μου, υποσχέθηκα ένα άρθρο αφιερωμένο στο συναρπαστικό πρόβλημα της εκμάθησης με ένα πλάνο, οπότε και εδώ. Μπορείτε να ξεκινήσετε ρίχνοντας μια ματιά στο βίντεο που κυκλοφόρησε και εξηγεί την καταπληκτική δουλειά τους:

Σε αυτό το βίντεο βλέπετε ένα φυσικό ρομπότ με ένα χέρι να στοιβάζει κύβους το ένα πάνω στο άλλο. Γνωρίζοντας τα περίπλοκα καθήκοντα που μπορούν να εκτελέσουν τα βιομηχανικά ρομπότ, εάν ο ερευνητής δεν προσπαθούσε να εξηγήσει τι συμβαίνει, σε πολλούς λογαριασμούς αυτό θα ήταν πολύ υποτιμητικό. Σε ελεγχόμενο περιβάλλον, η εργασία είναι απλή, οι διαδικαστικές (σκληροκωδικοποιημένες) προσεγγίσεις έχουν ήδη λύσει αυτά τα προβλήματα, αυτό που είναι πολλά υποσχόμενο και επαναστατικό είναι πόσο το γενικό πλαίσιο από κάτω θα μπορούσε να κλιμακώσει έως πολλαπλές, πιο περίπλοκες και προσαρμοστικές συμπεριφορές σε θορυβώδη περιβάλλοντα.

Η διαφορά στο μυαλό μεταξύ του ανθρώπου και των ανώτερων ζώων, τόσο μεγάλη όσο είναι, σίγουρα είναι βαθμού και όχι είδους.
- Τσαρλς Ντάργουιν

Αναλογικά, αυτό το άρθρο είναι μια ισχυρή απόδειξη ότι οι διαφορές στα γνωστικά συστήματα μεταξύ της τρέχουσας ενσωματωμένης τεχνητής νοημοσύνης (τεχνητή νοημοσύνη των φυσικών συστημάτων) και των ρομπότ του 22ου αιώνα θα είναι μιας κλίμακας και όχι είδους. Από το 2012 το διαγωνισμό ImageNet *, η έρευνα βαθιάς μάθησης έχει ακμάσει, όχι τόσο για να τροποποιήσει τη φύση του κατανεμημένου υπολογισμού που έγινε από ένα νευρωνικό δίκτυο, αλλά με την εύρεση νέων τρόπων για τη δομή των δικτύων, προκειμένου να μάθουν ένα συγκεκριμένο έργο. Για μια λειτουργία νευρικού δικτύου είναι δομή, αυτή η δομή δεν είναι σκληρή κωδικοποίηση (δεν έχει σχεδιαστεί με το χέρι) αλλά είναι τα αποτελέσματα των ατομικών υπολογιστικών μονάδων που συνδέονται αρχικά μεταξύ εισόδων και εξόδων, που είναι σε θέση να τροποποιήσουν τη δομή και τις συνδέσεις τους. Με την τροποποίηση της συνολικής δομής του δικτύου μαθαίνει μια συγκεκριμένη λειτουργία.

Σε αυτό το άρθρο δημιούργησαν ένα γενικό πλαίσιο ικανό να εκπαιδεύσει έναν πράκτορα για την εκπροσώπηση των εργασιών με αφηρημένο τρόπο, και να μάθει να μεταφέρει αυτή τη γνώση σε νέες αόρατες εργασίες (μεταφορά μάθησης) μετά από μία μόνο επίδειξη της νέας εργασίας (μία εκμάθηση απομιμήσεων).

Τα καθήκοντα

Αν και η ακριβής αρχιτεκτονική εφαρμογή διαφέρει, αναλαμβάνουν δύο εργασίες ως παραδείγματα για να δείξουν την απόδοση της γενικής προσέγγισης.

Επίτευξη σωματιδίων

Στο πρώτο παράδειγμα, το σύστημα λαμβάνει εισόδους έγχρωμων θέσεων στόχου σε ένα επίπεδο και μια μοναδική επίδειξη βίντεο του προσομοιωμένου παράγοντα που πηγαίνει στον καθορισμένο στόχο.

Σχήμα 2. Το ρομπότ είναι ένα σημείο ελέγχου μάζας με 2-διαστάσεων δύναμη. Η οικογένεια των καθηκόντων είναι να φτάσει σε ένα ορόσημο στόχο. Η ταυτότητα του ορόσημου διαφέρει από εργασία σε εργασία και το μοντέλο πρέπει να καταλάβει ποιος στόχος πρέπει να επιδιώξει βάσει της επίδειξης. (αριστερά) απεικόνιση του ρομπότ. (μεσαία) η εργασία είναι να φτάσετε στο πορτοκαλί πλαίσιο, (δεξιά) η εργασία είναι να φτάσετε στο πράσινο τρίγωνο.

Κατά τη διάρκεια της προπόνησης, το σύστημα πρέπει να αναπαραγάγει την ίδια εργασία (φτάσει πορτοκαλί) αλλά από άλλη διαμόρφωση, με διαφορετικές θέσεις εκκίνησης για το ρομπότ και τους στόχους. Δεν είναι σαφές εάν κατά τη διάρκεια της δοκιμής ο πράκτορας δοκιμάζεται σε εργασία που εκπαιδεύτηκε (φτάσει πορτοκαλί) ή σε εργασία που δεν είχε δει ποτέ πριν (φτάσει στο πράσινο για παράδειγμα) ή και τα δύο.

Η εκπαιδευμένη πολιτική αξιολογείται σε νέα σενάρια και εξαρτάται από νέες τροχιές επίδειξης που δεν φαίνονται κατά τη διάρκεια της εκπαίδευσης.

Είναι βέβαιο ότι ο πράκτορας πρέπει να συμπεράνει τον στόχο στόχου από μια μοναδική επίδειξη και να ξεκινήσει ξανά από μια άλλη διαμόρφωση. Αυτό συνεπάγεται ότι η ακριβής ακολουθία κινητήρα δεν θα μπορούσε να είχε μάθει πριν από τη δοκιμή και πρέπει να συναχθεί μέσω της αφαίρεσης (δομημένη αναπαράσταση υψηλότερου επιπέδου) της εργασίας και του σχεδιασμού του κινητήρα.

Αποκλεισμός στοίβας

Στο δεύτερο παράδειγμα, ο πράκτορας πρέπει να μάθει να συσσωρεύει κύβους (ταυτοποιούνται με διαφορετικά χρώματα) με την ίδια σειρά όπως αυτή που εμφανίζεται σε μία προσομοίωση προσομοίωσης. Αυτή η προσομοιωμένη επίδειξη είναι μια σειρά εικόνων 2D που δημιουργούνται από μια μηχανή 3D φυσικής στην οποία διαμορφώνονται οι ιδιότητες του κινητήρα και των αισθητηριακών συσκευών των ρομπότ.

Πολιτική μίας βολής. Μια ενιαία πολιτική εκπαιδεύτηκε για την επίλυση πολλών εργασιών. Κορυφαία εργασία: {abc, def}, Κάτω εργασία: {ab, cd, ef}

Και στα δύο παραδείγματα οι αρχικές θέσεις των κύβων στην επίδειξη και στην πραγματική δοκιμή είναι διαφορετικές, κάθε εργασία ξεκινά από μια άλλη αρχική θέση. Το ρομπότ δεν προσπαθεί να αντικαταστήσει τους κύβους για να ταιριάζει με την αρχική θέση της επίδειξης, μεταφέρει το έργο υψηλότερου επιπέδου στοίβαγμα του κύβου ανεξάρτητα από την κατάσταση στην οποία ξεκινά.

Εκπαίδευση με χρήση τυχαιοποίησης τομέα

Και στις δύο περιπτώσεις όλες οι εικόνες που χρησιμοποιούνται κατά τη διάρκεια της εκπαίδευσης λαμβάνονται μέσω προσομοίωσης χρησιμοποιώντας τυχαιοποίηση τομέα στην οποία θα τυχαιοποιήσουν τις ακόλουθες πτυχές των δειγμάτων:

Αριθμός και σχήμα αντικειμένων αποσπάσματος στο τραπέζι Θέση και υφή όλων των αντικειμένων στο τραπέζι Υφές του τραπεζιού, του δαπέδου, του skybox και του ρομπότ Θέση, προσανατολισμός και οπτικό πεδίο της κάμερας Αριθμός φωτιστικών στη σκηνή Θέση, προσανατολισμός, και χαρακτηριστικά χαρακτηριστικά των φώτων Τύπος και ποσότητα τυχαίου θορύβου που προστίθεται στις εικόνες

Σετ εκπαίδευσης για την επίτευξη σωματιδίων

Θεωρούμε ένα όλο και πιο δύσκολο σύνολο οικογενειών εργασιών, όπου ο αριθμός των ορόσημων αυξάνεται από 2 σε 10. Για κάθε οικογένεια εργασιών, συλλέγουμε 10000 τροχιές για εκπαίδευση, όπου οι θέσεις των ορόσημων και η αρχική θέση του ρομπότ σημείων είναι τυχαία. Χρησιμοποιούμε μια κωδικοποιημένη πολιτική ειδικών για την αποτελεσματική δημιουργία επιδείξεων. Προσθέτουμε θόρυβο στις τροχιές διαταράσσοντας τις υπολογιστικές ενέργειες πριν τις εφαρμόσουμε στο περιβάλλον και χρησιμοποιούμε απλή κλωνοποίηση συμπεριφοράς για να εκπαιδεύσουμε την πολιτική του νευρικού δικτύου

Σετ προπόνησης για στοίβαγμα μπλοκ

Συγκεκριμένα, συλλέγουμε 140 εκπαιδευτικές εργασίες και 43 εργασίες δοκιμής, καθεμία με διαφορετική επιθυμητή διάταξη των μπλοκ. Ο αριθμός των μπλοκ σε κάθε εργασία μπορεί να κυμαίνεται μεταξύ 2 και 10. Συλλέγουμε 1000 τροχιές ανά εργασία για εκπαίδευση και διατηρούμε ένα ξεχωριστό σύνολο τροχιών και αρχικών διαμορφώσεων που θα χρησιμοποιηθούν για αξιολόγηση. Παρόμοια με την εργασία επίτευξης σωματιδίων, εισάγουμε θόρυβο στη διαδικασία συλλογής τροχιάς. Οι τροχιές συλλέγονται χρησιμοποιώντας μια κωδικοποιημένη πολιτική.

Οι επιτυχείς επιδείξεις συλλέγονται χρησιμοποιώντας μια κωδικοποιημένη πολιτική

Σημειώστε ότι κατά τη διάρκεια της εκμάθησης οι σωστές τροχιές δημιουργούνται από μια διαδικαστική «σκληρή κωδικοποίηση» πολιτική, που πιστεύω ότι βασίζεται σε κλασικές τεχνικές αναγνώρισης και ελέγχου του συστήματος. Έτσι κατά τη διάρκεια της εκπαίδευσης και του ελέγχου ο πράκτορας έχει δύο εισόδους: α) μια επίδειξη σε μια διαμόρφωση Α και β) μια αρχική διαμόρφωση Β. Κατά τη διάρκεια της προπόνησης μόνο, ο αλγόριθμος εκμάθησης έχει επίσης πρόσβαση σε μια ιδανική απόκριση: μια τροχιά που ξεκινά από τη διαμόρφωση Β που απαντά στο πρόβλημα και με το οποίο η απόκριση του πράκτορα θα συγκριθεί κατά τη διάρκεια της μάθησης - καθιστώντας το ένα εποπτευόμενο μαθησιακό πρόβλημα.

Για κάθε εκπαιδευτική εργασία υποθέτουμε τη διαθεσιμότητα ενός συνόλου επιτυχημένων επιδείξεων.

Εάν δεν είναι σαφές, θα εξετάσω τις διαφορές μεταξύ των διαφορετικών τύπων μαθησιακών παραδειγμάτων στην επόμενη ενότητα.

Αλγόριθμος βελτιστοποίησης και λειτουργία απώλειας

Η εποπτευόμενη μάθηση αναφέρεται σε πρότυπα εκπαίδευσης στα οποία σε κάθε απόφαση το δίκτυο έχει πρόσβαση στη σωστή επιλογή που θα έπρεπε να είχε κάνει, και ως εκ τούτου σε μια έννοια σφάλματος. Για παράδειγμα, σε μια εργασία ταξινόμησης μεταξύ σκύλων και γατών, η ετικέτα των εικόνων σκύλων και γατών κατά τη διάρκεια της εκπαίδευσης είναι γνωστή εκ των προτέρων και τα σφάλματα εντοπίζονται αμέσως. Υπό αυτήν την έννοια, είναι διαφορετικό από τη μη επιτηρούμενη μάθηση, όπου γενικά ζητείται από τον πράκτορα να βρει μια προηγουμένως άγνωστη δομή στις εισόδους που λαμβάνει και χωρίς ετικέτες γάτας και σκύλου θα πρέπει να ανακαλύψει ότι υπάρχουν δύο ομάδες διαφορετικών αντικειμένων μόνο με βάση τις πληροφορίες που περιέχονται στα δεδομένα. Είναι επίσης διαφορετικό από το Reinforcement Learning ότι πολλές φορές ισχύουν για σύστημα πραγματικού χρόνου στο οποίο η ακριβής ακολουθία αποφάσεων που οδηγεί σε έναν στόχο είναι άγνωστη, αλλά μόνο μια τελική «ανταμοιβή» θα αποφασίσει εάν η ακολουθία ήταν σωστή ή όχι. Χρησιμοποιώντας τη μίμηση μάθησης μετατρέπουν ένα κλασικό μαθησιακό πρόβλημα ενίσχυσης σε ένα εποπτευόμενο μαθησιακό πρόβλημα, στο οποίο το σφάλμα υπολογίζεται από απόσταση σε μια παρατηρούμενη τροχιά.

Όπως συμβαίνει για οποιαδήποτε εποπτευόμενη εγκατάσταση προπόνησης, η εργασία που ορίζεται καθορίζεται πλήρως από τη λειτουργία απώλειας, η οποία στοχεύει να ποσοτικοποιήσει πόσο μακριά ήταν ο πράκτορας από την επιδιωκόμενη συμπεριφορά. Ο καθορισμός αυτής της λειτουργίας είναι συχνά το κρίσιμο βήμα, καθώς καθορίζει πώς οι αλγόριθμοι βελτιστοποίησης ενημερώνουν τις παραμέτρους του μοντέλου. Αυτοί οι αλγόριθμοι έχουν σημασία όσον αφορά τον υπολογισμό του χρόνου, και συχνά απαιτούν κάποια τροποποίηση για να είναι σε θέση να συγκλίνουν, αν όχι καθόλου. Πράγματι, οι λύσεις που θα ελαχιστοποιήσουν τη λειτουργία σε πολύ υψηλή διάσταση βρίσκονται σε ένα πολύ μικρό κέλυφος του παραμέτρου, με μια μικρή απόσταση μεταξύ τους, μόλις απομακρυνθείτε από αυτόν τον μικρό τομέα, η απόσταση μεταξύ των λύσεων αυξάνεται γρήγορα. Υπάρχει πολλή πολύ ενδιαφέρουσα δουλειά σε αυτό το θέμα, μεταξύ άλλων από την πολύ εκπληκτική Jennifer Chayes, που βάζει το θέμα σε μια πολύ ενδιαφέρουσα συνέντευξη στο τελευταίο επεισόδιο του Talking Machines.

Κατά τη διάρκεια της εκπαίδευσης των δικτύων πολιτικής (ολόκληρο το δίκτυο, ικανό να αποφασίσει από την είσοδο ποια ενέργεια να λάβει) επεξεργάζονται πρώτα την επιτυχημένη πορεία επίδειξης. Για αυτό το μέρος θα συγκρίνουν δύο προσεγγίσεις, την κλασική συμπεριφορική κλωνοποίηση (δεν είναι ακριβώς σίγουρη για την εφαρμογή που χρησιμοποίησαν) και τους αλγόριθμους DAGGER. Αυτό θα επιτρέψει στη συνέχεια την επαναληπτική ελαχιστοποίηση της λειτουργίας απώλειας είτε μέσω της απώλειας l2 είτε της εγκάρσιας εντροπίας με βάση το εάν οι ενέργειες είναι συνεχείς ή διακριτές (με βάση τις κατανομές των συμβάντων στη σειρά). Σε όλα τα πειράματα, χρησιμοποίησαν τον αλγόριθμο Adamax για να πραγματοποιήσουν τη βελτιστοποίηση με ρυθμό εκμάθησης 0,001.

Το μέγεθος του βήματος ξεκινά μικρό και εξασθενίζει εκθετικά.

Ο αλγόριθμος από μόνος του δεν επιτρέπει τη μεταφορά, είναι πώς δημιουργείτε το σετ προπόνησης και τη λειτουργία απώλειας που θα επιτρέψει τη μεταφορά.

Υπάρχουν δύο είδη μεταφοράς στις εργασίες. Το πρώτο είδος αναφέρεται ως «γεφύρωση του χάσματος της πραγματικότητας», είναι μια γενίκευση στη μάθηση που επιτρέπει τη μεταφορά μεταξύ της εκπαίδευσης σε προσομοιωμένες εισόδους σε δοκιμές σε φυσικά ερεθίσματα. Τα δεδομένα προσομοίωσης είναι συχνά μια φτωχή προσέγγιση του πραγματικού κόσμου, πολύ τέλεια, χωρίς την πολυπλοκότητα του πραγματικού αντικειμένου. Στον πραγματικό κόσμο η κάμερα μπορεί να είναι ελαττωματική και πιο θορυβώδης, ο έλεγχος του κινητήρα θα είναι λιγότερο ακριβής, τα χρώματα θα αλλάξουν, οι υφές θα είναι πιο πλούσιες κ.λπ. Για να επιτρέψουν αυτήν την πρώτη μεταφορά χρησιμοποιούν μια μέθοδο που αναφέρονται ως "τυχαιοποίηση τομέα" : προσθέτοντας θόρυβο στις εισόδους, το δίκτυο μπορεί να μάθει την κοινή σχετική δομή που θα του επιτρέψει να γενικεύσει κατάλληλα στον πραγματικό κόσμο. Για παράδειγμα, θα αλλάξουν τη γωνία της κάμερας μεταξύ των παραδειγμάτων εκπαίδευσης, θα αλλάξουν τις υφές ή θα κάνουν τις τροχιές να είναι λιγότερο τέλειες. Προσθέτοντας θόρυβο κατά την προπόνηση προσθέτουμε στιβαρότητα.

Η δεύτερη μεταφορά που δοκιμάστηκε εδώ είναι η ικανότητα παραγωγής μιας σχετικής ακολουθίας κινητήρα σε προηγουμένως αόρατο σύνολο διαμόρφωσης και στόχου, με βάση μια μοναδική επίδειξη που ξεκινά σε άλλη αρχική διαμόρφωση αλλά με παρόμοιο τελικό στόχο. Και πάλι εδώ η μεταφορά θα καταστεί δυνατή μέσω του τρόπου κατασκευής του σετ προπόνησης και μοντελοποίησης της λειτουργίας απώλειας. Παρουσιάζοντας επιδείξεις κατά τη διάρκεια της προπόνησης που δεν ξεκινούν από την ίδια αρχική κατάσταση για να επιτύχουν έναν παρόμοιο στόχο, επιτρέπετε στο δίκτυο να μάθει να ενσωματώνει μια αναπαράσταση υψηλότερου επιπέδου του στόχου χωρίς τη χρήση απόλυτων θέσεων, καθώς και μια αναπαράσταση υψηλότερης τάξης η ακολουθία κινητήρα που δεν είναι απλή απομίμηση. Η αφελής αρχική αρχιτεκτονική επιτρέπει στην εκπαίδευση να τροποποιήσει τη δομή με σχετικό τρόπο, και αυτή η εκπαιδευμένη δομή συνεπάγεται την τελική λειτουργία.

Στόχοι

Για το παράδειγμα στοίβας μπλοκ είχαν πολλούς περιορισμούς που ήθελαν να συναντήσουν ο εκπαιδευτικός πράκτορας.

Θα πρέπει να είναι εύκολο να εφαρμοστεί σε περιπτώσεις εργασιών που έχουν ποικίλο αριθμό μπλοκ.
Φυσικά θα πρέπει να γενικεύεται σε διαφορετικές παραλλαγές του ίδιου έργου. Για παράδειγμα, η πολιτική θα πρέπει να αποδίδει καλά στην εργασία {dcba}, ακόμα κι αν έχει εκπαιδευτεί μόνο στην εργασία {abcd}.
Θα πρέπει να φιλοξενεί επιδείξεις μεταβλητών μηκών.

Είχαν πολλές ερωτήσεις που ήθελαν να απαντηθούν για αυτό το έργο.

Πώς συγκρίνεται η εκπαίδευση με συμπεριφορική κλωνοποίηση με το DAGGER, δεδομένου ότι μπορούν να συλλεχθούν επαρκή δεδομένα εκτός σύνδεσης;
Πώς συγκρίνεται η ρύθμιση σε ολόκληρη την επίδειξη με την προσαρμογή στην τελική επιθυμητή διαμόρφωση, ακόμα και όταν η τελική διαμόρφωση έχει αρκετές πληροφορίες για να προσδιορίσει πλήρως την εργασία;
Πώς συγκρίνεται η ρύθμιση σε ολόκληρη την επίδειξη με τη ρύθμιση σε ένα "στιγμιότυπο" της τροχιάς, το οποίο είναι ένα μικρό υποσύνολο πλαισίων που είναι πιο ενημερωτικά
Μπορεί το πλαίσιο μας να γενικευτεί επιτυχώς σε τύπους εργασιών που δεν έχει δει ποτέ κατά τη διάρκεια της προπόνησης; (++)
Ποιοι είναι οι τρέχοντες περιορισμοί της μεθόδου;

Αρχιτεκτονική

Επίτευξη σωματιδίων

Για αυτό το πρώτο παράδειγμα συνέκριναν τρεις αρχιτεκτονικές, όλες βασισμένες σε νευρωνικά δίκτυα Long Short Term Memory (LSTM). Μια περιγραφή αυτών των δικτύων θα παρουσιαστεί σε μια μελλοντική ανάρτηση σχετικά με τη μνήμη και την προσοχή, τα οποία είναι απολύτως συναρπαστικά θέματα τόσο στις γνωστικές όσο και στις υπολογιστικές επιστήμες. Στην ουσία, ένα LSTM τροφοδοτεί προηγούμενες εξόδους δικτύου (σε χρόνο) ως μέρος της εισόδου του δικτύου σε κάθε νέο χρονικό σημείο, επιτρέποντας σε πληροφορίες των προηγούμενων καταστάσεων να ενημερώνουν το παρόν (εξ ου και το όνομά τους των δικτύων βραχυπρόθεσμης μνήμης). Βρίσκονται στη ρίζα πολλών προηγμένων τεχνολογιών που ασχολούνται με τις χρονοσειρές (Alexa, Siri κ.λπ.).

Εδώ χρησιμοποιούν αυτές τις τρεις συγκεκριμένες προϋποθέσεις:

  1. Απλό LS ™: μαθαίνει να ενσωματώνει την τροχιά και την τρέχουσα κατάσταση για να το τροφοδοτεί σε ένα πολυστρωματικό perceptron που θα παράγει τη δράση του κινητήρα
  2. LSTM με προσοχή: δημιουργήστε μια σταθμισμένη αναπαράσταση πάνω από τα ορόσημα της τροχιάς
  3. Τελική κατάσταση με προσοχή: χρήση στην προπόνηση μόνο της τελικής κατάστασης για την επίτευξη στάθμισης σε σχέση με τα ορόσημα, παρόμοια με την προηγούμενη αρχιτεκτονική

Αποκλεισμός στοίβας

Ενώ, κατ 'αρχήν, ένα γενικό νευρωνικό δίκτυο θα μπορούσε να μάθει τη χαρτογράφηση από την επίδειξη και την τρέχουσα παρατήρηση έως την κατάλληλη δράση, θεωρήσαμε σημαντικό να χρησιμοποιήσουμε μια κατάλληλη αρχιτεκτονική. Η αρχιτεκτονική μας για την εκμάθηση της στοίβας με μπλοκ είναι μία από τις κύριες συνεισφορές αυτού του εγγράφου και πιστεύουμε ότι είναι αντιπροσωπευτική του πώς θα μπορούσαν να μοιάζουν στο μέλλον οι αρχιτεκτονικές για μια μεμονωμένη εκμάθηση απομιμήσεων πιο περίπλοκων εργασιών.

Ενότητες προσοχής

Το άρθρο παραμένει σχετικά υψηλό επίπεδο στην περιγραφή της δομής των δικτύων που χρησιμοποιούνται για την εκμάθηση της εργασίας. Ένα βασικό συστατικό της αρχιτεκτονικής είναι η ενότητα προσοχής τους, αλλά πιστεύω ότι αυτό το θέμα χρειάζεται μια συγκεκριμένη δημοσίευση του λεπτομερούς ρόλου στον ουσιαστικό του ρόλο. Αναλογικά με την έννοια της γνωστικής επιστήμης της διαρκούς προσοχής, οι ενότητες προσοχής χρησιμοποιούνται για τη διατήρηση και την εστίαση σε σχετικές πληροφορίες που περιέχονται σε διάφορα χρονικά διαστήματα χώρου και χρόνου. Παράγει ένα σταθερό μέγεθος εξόδου που περιέχει μια ενσωμάτωση ενός περιεχομένου πληροφοριών που τεντώθηκε σε χρόνο και χώρο. Αναλογικά με την τοπολογία, έναν κλάδο μαθηματικών που πιστεύω ότι θα πληροφορήσει πολύ πώς κατανοούμε τις κατανεμημένες αναπαραστάσεις στο μέλλον, ένα δίκτυο προσοχής εκτελεί έναν τοπολογικό ισομορφισμό πληροφοριών, ίδιας καμπυλότητας, διαφορετικού σχήματος. Λάβετε υπόψη ότι αυτά τα δίκτυα δεν διαδραματίζουν ρόλο ανιχνευτή διαφανείας ικανό να επικεντρωθεί σε απροσδόκητα ή σπάνια συμβάντα, κάτι που σχετίζεται με την έννοια της προσοχής στη νευροεπιστήμη.

Εδώ χρησιμοποιούν δύο τύπους δικτύου προσοχής: α) ένα δίκτυο χρονικής προσοχής που παράγει ένα σταθμισμένο άθροισμα περιεχομένου (ερώτημα, διανύσματα περιβάλλοντος και μνήμης) που είναι αποθηκευμένα στη μνήμη και β) ένα δίκτυο προσοχής γειτονίας που είναι σε θέση να ανακτήσει πληροφορίες σχετικά με το μπλοκ θέσεις ανάλογα με το τρέχον ερώτημα του πράκτορα.

Δίκτυο προσωρινής προσοχής, με c: διάνυσμα περιβάλλοντος, m: διάνυσμα μνήμης, q: διάνυσμα ερωτημάτων, v: βάρος μαθημένου φορέα. Η έξοδος έχει το ίδιο μέγεθος με το διάνυσμα μνήμης. Είναι ένας γραμμικός συνδυασμός αυτών των διανυσμάτων που επιτρέπει σε κάποιο φορέα μνήμης να έχει μεγαλύτερη επίδραση στην έξοδο με βάση τα διανύσματα περιβάλλοντος και ερωτήματος.Η ίδια ιδέα εδώ, ο ανταγωνισμός μεταξύ χωρικών πληροφοριών διατηρείται δυναμικά από το σύστημα προσοχής.

Το δίκτυο πολιτικής

Το πλήρες δίκτυο αποτελείται από τρία διαφορετικά υπο-δίκτυα: το δίκτυο επίδειξης, το δίκτυο περιβάλλοντος και το δίκτυο χειραγώγησης.

Το δίκτυο επίδειξης λαμβάνει μια τροχιά επίδειξης ως είσοδος και παράγει μια ενσωμάτωση της επίδειξης που θα χρησιμοποιηθεί από την πολιτική. Το μέγεθος αυτής της ενσωμάτωσης αυξάνεται γραμμικά ως συνάρτηση του μήκους της επίδειξης καθώς και του αριθμού των μπλοκ στο περιβάλλον.

Όπως φαίνεται εδώ, το δίκτυο επίδειξης μπορεί να ενσωματώσει επίδειξη ποικίλης πολυπλοκότητας και μεγέθους σε μια κοινή μορφή που θα χρησιμοποιηθεί από το δίκτυο περιβάλλοντος για την εκπροσώπηση της εργασίας. Είναι πιθανό ήδη σε αυτό το επίπεδο να πραγματοποιηθεί η γενίκευση, η ενσωμάτωση της επίδειξης θα πρέπει να αφήνει πληροφορίες σχετικά με την ακριβή θέση τροχιάς και απόλυτου κύβου που παρατηρήθηκε κατά τη διάρκεια των διαδηλώσεων.

Κοιτάζοντας τη δομή του δικτύου περιβάλλοντος, αν και από πολύ υψηλό επίπεδο, βλέπουμε τη διεπαφή με το δίκτυο επίδειξης να τροφοδοτεί μια ενσωμάτωση της επίδειξης στις κεντρικές χρονικές ενότητες προσοχής. Βλέπουμε επίσης ότι οι προηγούμενες ενέργειες (LSTM) και η τρέχουσα κατάσταση τροφοδοτούνται ως είσοδος σε συνδυασμό με την ενσωμάτωση επίδειξης για την παραγωγή μιας καθολικής ενσωμάτωσης περιβάλλοντος που αποστέλλεται στο δίκτυο κινητήρα.

Η περιγραφή τους για τη λειτουργία των δικτύων είναι κατά τη γνώμη μου το πιο σημαντικό μέρος της εργασίας:

Το δίκτυο περιβάλλοντος ξεκινά με τον υπολογισμό ενός διανύσματος ερωτήματος ως συνάρτηση της τρέχουσας κατάστασης, το οποίο στη συνέχεια χρησιμοποιείται για την παρακολούθηση των διαφόρων χρονικών βημάτων στην ενσωμάτωση επίδειξης. Τα βάρη προσοχής σε διαφορετικά μπλοκ εντός του ίδιου χρονικού βήματος αθροίζονται μαζί, για να παράγουν ένα μόνο βήμα ανά χρονικό βήμα. Το αποτέλεσμα αυτής της χρονικής προσοχής είναι ένας φορέας του οποίου το μέγεθος είναι ανάλογο με τον αριθμό των μπλοκ στο περιβάλλον. Στη συνέχεια, εφαρμόζουμε την προσοχή στη γειτονιά για να διαδώσουμε τις πληροφορίες στις ενσωματώσεις κάθε μπλοκ. Αυτή η διαδικασία επαναλαμβάνεται πολλές φορές, όπου η κατάσταση προχωρά χρησιμοποιώντας ένα κελί LSTM με μη συνδεδεμένα βάρη.
Η προηγούμενη ακολουθία λειτουργιών παράγει μια ενσωμάτωση του οποίου το μέγεθος είναι ανεξάρτητο από τη διάρκεια της επίδειξης, αλλά εξακολουθεί να εξαρτάται από τον αριθμό των μπλοκ. Στη συνέχεια εφαρμόζουμε τυπική απαλή προσοχή για την παραγωγή διανυσμάτων σταθερών διαστάσεων, όπου το περιεχόμενο της μνήμης αποτελείται μόνο από θέσεις κάθε μπλοκ, τα οποία, μαζί με την κατάσταση του ρομπότ, σχηματίζουν την είσοδο που μεταφέρεται στο δίκτυο χειραγώγησης.
Διαισθητικά, αν και ο αριθμός των αντικειμένων στο περιβάλλον μπορεί να ποικίλει, σε κάθε στάδιο της χειραγώγησης, ο αριθμός των σχετικών αντικειμένων είναι μικρός και συνήθως σταθερός. Για το περιβάλλον στοίβαξης μπλοκ ειδικά, το ρομπότ θα πρέπει να προσέξει μόνο τη θέση του μπλοκ που προσπαθεί να πάρει (το μπλοκ προέλευσης), καθώς και τη θέση του μπλοκ που προσπαθεί να τοποθετήσει πάνω από ( το μπλοκ στόχου). Επομένως, ένα σωστά εκπαιδευμένο δίκτυο μπορεί να μάθει να ταιριάζει με την τρέχουσα κατάσταση με το αντίστοιχο στάδιο της επίδειξης και να συμπεράνει τις ταυτότητες των πηγών και των ομάδων στόχων που εκφράζονται ως βάρη μαλακής προσοχής σε διαφορετικά μπλοκ, τα οποία στη συνέχεια χρησιμοποιούνται για την εξαγωγή των αντίστοιχων θέσεων σε να μεταφερθεί στο δίκτυο χειραγώγησης.

Ο τρόπος με τον οποίο τελειώνουν την περιγραφή τους είναι ένα τέλειο παράδειγμα της τρέχουσας μετατόπισης της έρευνας AI από μια προσέγγιση συστημάτων εμπειρογνωμόνων σε μια προσέγγιση μαθησιακού συστήματος, και υπονοεί επίσης τη συζήτηση σχετικά με το πώς εξελίχθηκε ο εγκέφαλος παρακάτω.

Παρόλο που δεν εφαρμόζουμε αυτήν την ερμηνεία στην εκπαίδευση, η ανάλυση του πειράματός μας υποστηρίζει αυτήν την ερμηνεία του πώς λειτουργεί η εκπαιδευμένη πολιτική εσωτερικά.

Δεν ξέρουν πώς λειτουργεί! Χτίζουν μια δομή ικανή να εκτελεί ορισμένους υπολογισμούς και να αποθηκεύει συγκεκριμένες πληροφορίες που πιστεύουμε ότι είναι a priori χρήσιμες, και το τροφοδοτούν ένα εκπαιδευτικό σύνολο ελπίζοντας ότι ολόκληρη η δομή θα μάθει! Υπάρχει ένα είδος ερευνητικού βουνού Τεχνητής Νοημοσύνης σε άνοδο, μια τέχνη, ένας τρόπος να κατευθύνει την ευρετική αναζήτηση προς τη σωστή κατεύθυνση. Και φαίνεται ότι πολλοί από αυτούς τους μάγους εργάζονται τώρα για το openAI.

Με τα δικά τους λόγια, το δίκτυο χειραγώγησης είναι η απλούστερη δομή, από την ενσωμάτωση περιβάλλοντος που τροφοδοτείται στον πολυπερίστοπο perceptron, παράγεται μια κινητική δράση.

Αποτελέσματα

Τα αποτελέσματα είναι συχνά ένα μέρος για το οποίο έχω λίγο ενδιαφέρον, ειδικά για τέτοιου είδους εκπληκτικά λαμπρά τεχνικά έγγραφα. Θα πάω γρήγορα, η ουσία είναι ότι αυτή η προσέγγιση λειτουργεί, εκτελεί με ακρίβεια παρόμοια με τις πολιτικές εμπειρογνωμόνων με σκληρή κωδικοποίηση και, σε αντίθεση με αυτές τις συγκεκριμένες διαδικαστικές προσεγγίσεις, είναι γενικευμένη σε μια μεγάλη σειρά εργασιών.

Επίτευξη σωματιδίων

Στοίβαγμα μπλοκ

Σε αυτά τα πειράματα δοκιμάστηκαν επίσης διαφορετικές συνθήκες. Χρησιμοποιώντας το DAGGER συνέκριναν την κατάσταση των τριών διαφορετικών εισόδων με δειγματοληψία της αποδεικνυόμενης τροχιάς: πλήρεις τροχιές, στιγμιότυπο της τροχιάς ή χρησιμοποιώντας μόνο την τελική κατάσταση. Συγκρίνουν επίσης τον αλγόριθμο Behavioral Cloning με την πλήρη πορεία της επίδειξης.

Μια ισχυρή απόδειξη της ικανότητας του συστήματος να γενικεύσει την ταυτότητα του κύβου

Συζήτηση

Διαβάζοντας τις γρήγορες εξελίξεις που έκανε το OpenAI τους τελευταίους μήνες, αισθάνομαι μια αυξανόμενη ώθηση να μιλήσω για τη δουλειά τους και να μοιραστώ τις σκέψεις μου σχετικά με το τι πιστεύω ότι είναι το έργο τους και τις εξελίξεις στον τομέα της τεχνητής νοημοσύνης στο σύνολό της, να ενημερώσουν την κατανόησή μας βιολογικοί εγκέφαλοι λειτουργούν. Συγκεκριμένα, αυτή η αυξανόμενη ιδέα ότι οι φαινομενικά κοινές γνωστικές λειτουργίες μεταξύ των ανθρώπων δεν οφείλονται τόσο σε μια κοινή δομή που ξέρει εγγενώς πώς να εκτελέσει μια εργασία, αλλά αντ 'αυτού είναι αποτέλεσμα σχετικά παρόμοιων αφελών δομών που, αντιμέτωποι με το ίδιο περιβάλλον, μάθετε να εκτελείτε παρόμοιες εργασίες. Η συνάρτηση είναι το αποτέλεσμα μιας λειτουργικής δομής που μπορεί να μάθει μόνο μια συγκεκριμένη εργασία λόγω ενός συγκεκριμένου περιβάλλοντος και όχι μιας δομής που μπορεί να κάνει την εργασία εγγενώς, απλά τροποποιώντας μερικές παραμέτρους για προσαρμογή στο περιβάλλον.

Εργασίες έναντι διαμορφώσεων: ένας φαινομενικά αυθαίρετος ορισμός

Πρέπει να παραδεχτώ ότι δεν καταλαβαίνω γιατί επέλεξαν να μιλήσουν για διαφορετικά καθήκοντα όπως έκαναν. Μια εργασία ορίζεται στο πείραμα στοίβαξης μπλοκ ως ένα σύνολο συμβολοσειρών που αντιπροσωπεύουν τη θέση των μπλοκ σε σχέση μεταξύ τους, ο αριθμός των στοιχείων στο σύνολο καθορίζει τον αριθμό των στοιβών και τον αριθμό των χαρακτήρων τον αριθμό του μπλοκ που πρέπει να τακτοποιηθεί . Μια εργασία τότε είναι μια διάταξη μπλοκ σε στοίβες ανεξάρτητα από την απόλυτη θέση της στοίβας.

Ορισμένα μπλοκ ενδέχεται να βρίσκονται στο τραπέζι αλλά όχι μέρος της εργασίας

Η επιλογή τους να καθορίσουν τη σχετική θέση και τον αριθμό των στοιβών ως κριτήρια για ξεχωριστή εργασία φαίνεται αυθαίρετη. Πράγματι, θα μπορούσε επίσης να έχει νόημα να μιλάμε για διαφορετικά καθήκοντα βάσει των απόλυτων αρχικών θέσεων των μπλοκ (αυτό που αναφέρονται ως διαμόρφωση). Πιστεύω ότι η κοινή φύση του προβλήματος είναι προφανής σε αυτούς, αλλά για λόγους σαφήνειας προτιμούν να μην μπει στις λεπτομέρειες. Είναι πιο λογικό να πλαισιώσουμε την εκμάθηση πολιτικής ως δύο τύπους γενικεύσεων, όπως κάνουν αργότερα:

Σημειώστε ότι η γενίκευση αξιολογείται σε πολλαπλά επίπεδα: η εκπαιδευμένη πολιτική όχι μόνο πρέπει να γενικεύεται σε νέες διαμορφώσεις και νέες επιδείξεις εργασιών που έχουν ήδη δει, αλλά πρέπει επίσης να γενικεύεται σε νέες εργασίες.

Απλώς αντικαταστήστε το "task" με το "stack stackings". Για να μάθετε σωστά την εργασία σημαίνει ότι ο πράκτορας μαθαίνει μια ενσωμάτωση ικανή να αφαιρέσει τη θέση των κύβων (διαμόρφωση), αλλά και την ταυτότητά τους (εργασία), τον αριθμό των στοιβών (εργασία) και την πορεία της επίδειξης (εισήχθη σύντομα στο το απόσπασμα) για την παραγωγή σχετικής κινητικής απόκρισης.

Αυτές οι γενικεύσεις φαίνονται αντιφατικές, πώς μπορεί το ίδιο δίκτυο να αφαιρέσει την αρχική διαμόρφωση του κύβου ή την ταυτότητά τους και να ανακτήσει την απόλυτη θέση τους για την απόκριση του κινητήρα;

Αυτό εξηγεί την ανάγκη για διαφορετικά συνεργατικά υποδίκτυα κατά τη διάρκεια της μάθησης, λαμβάνοντας διαφορετικές εισόδους, και εξηγεί ότι στο δίκτυο περιβάλλοντος μια αφηρημένη αναπαράσταση της εργασίας τροφοδοτείται με πληροφορίες χαμηλότερης τάξης, όπως οι απόλυτες θέσεις κύβων, πριν από την καθοδική εντολή.

Ίσως πιστεύετε ότι ο σχολιασμός αυτής της διάκρισης εργασίας και διαμόρφωσης είναι ανόητος, αλλά είναι σημαντικό να καταλάβετε ότι είναι στην ουσία η ίδια διαδικασία αφαίρεσης στο παιχνίδι σε διαφορετικά αντικείμενα (και αυτό ανοίγει για την ακόλουθη ενότητα).

Δεν υπάρχει μάθηση χωρίς αμετάβλητη

Η μεταφορά μάθησης είναι ίσως η πιο συναρπαστική έννοια της γνώσης, είτε είναι in-silico είτε in-vivo, είναι ένα πολύ καυτό θέμα τόσο για τους ερευνητές της AI όσο και για τους νευροεπιστήμονες και τυχαίνει να είναι το αντικείμενο της διδακτορικής μου διατριβής. Σημειώστε ότι οι πολύ συγγενείς έννοιες έχουν διερευνηθεί σε πολλούς τομείς πριν από τη μηχανική μάθηση, και αυτή η αφηρημένη και πάντα μερικώς καθορισμένη έννοια έχει πολλά ονόματα. Οι φιλόσοφοι, οι ανθρωπολόγοι και οι κοινωνιολόγοι θα μπορούσαν να το αναφέρουν ως (Μετα-) Δομή (Claude Levi-Strauss, Michel Foucault), ο Γλωσσολόγος θα μιλήσει για το Σύνταγμα και τις δομές ένθετων δέντρων (Noam Chomsky), οι Μαθηματικοί πιθανότατα θα σκεφτούν τον Ομομορφισμό ή τις Αμετάβλητες και την Εκπαίδευση ερευνητές ή νευροεπιστήμονες μπορεί να το αναφέρουν ως δομική μάθηση. Μπορεί επίσης να δείτε σχετική ιδέα στον τομέα της μηχανικής μάθησης όπως η εκπροσώπηση και η μετα-μάθηση, η οποία ανάλογα με τον συγγραφέα μπορεί να αναφέρεται στη μεταφορά μάθησης ή στο μαθησιακό πρότυπο που χρησιμοποιείται για την εκτέλεση της μάθησης μεταφοράς. Όταν μιλάμε για Deep Neural Networks αυτές οι διαφορές είναι θολές, καθώς στην ουσία ένα Neural net μαθαίνει να ενσωματώνει ένα συγκεκριμένο πρόβλημα (εκπροσώπηση μάθησης) τροποποιώντας τη δομή του (μετα-μάθηση) συνήθως σε ένα θορυβώδες περιβάλλον που συνεπάγεται μια μορφή μεταφοράς μάθησης.

Οι ερευνητές της τεχνητής νοημοσύνης και ο Γνωστικός Επιστήμονας έχουν συχνά έναν πολύ συγκεκριμένο ορισμό της μάθησης μεταφοράς, είναι η διαδικασία που επιτρέπει σε ένα σύστημα να χρησιμοποιεί τις γνώσεις που αποκτήθηκαν σε μια συγκεκριμένη εργασία για να εκτελέσει μια άλλη εργασία που μοιράζεται μια κοινή δομή σύνθεσης (όπως περιγράφεται στο άρθρο). Η γνωστική επιστήμη έχει αυτή την έννοια της μεταφοράς κοντά και μακριά, ανάλογα με το πώς φαίνεται να διαφέρουν οι δύο εργασίες. Αλλά από μια πιο αφηρημένη προοπτική, σε ένα θορυβώδες και περίπλοκο περιβάλλον, όλη η μάθηση είναι μια μορφή μεταφοράς μάθησης και η διαφορά μεταξύ της πολύ κοντά και της πολύ μακρινής μεταφοράς είναι μόνο θέμα κοινής πληροφορίας - και πάλι θέμα κλίμακας όχι φύσης.

Σε ελεγχόμενο περιβάλλον, καταβάλλονται προσπάθειες εκ των προτέρων για την οικοδόμηση μιας σκληρής κωδικοποίησης της διακριτικής ευχέρειας της πραγματικότητας, αλλά στην πραγματικότητα αυτή η διακριτική ευχέρεια αναπαράγει διαδικαστικά αυτό που κάνει η μεταφορά μάθησης, ενώνει ένα άπειρο σύνολο καταστάσεων που βρίσκονται στην πραγματικότητα κάτω από μια κοινή δομή εγκλεισμού. Στην ουσία το Transfer Learning αναφέρεται άμεσα ή κατ 'επέκταση στη διαδικασία μέσω της οποίας οι εκπαιδευτικοί πράκτορες χρησιμοποιούν αναλλοίωτα για να χτίσουν μοντέλα του κόσμου. Είναι μια διαδικασία που χρησιμοποιεί ομοιότητες, επαναλήψεις και παραλλαγές των ίδιων, για να σχηματίσει ολοένα και πιο αφηρημένη και συνθετική αναπαράσταση που θα δομήσει σύνολα κατά τη διάρκεια διακύμανσης από την είσοδο. Γενικά, επιτρέπει τη δημιουργία των βασικών λειτουργιών μέσω των οποίων χειριζόμαστε ομάδες πληροφοριών, όπως στα μαθηματικά που επιτρέπει την ένωση και τις διασταυρώσεις. Επιτρέπει ταυτότητες, εξηγεί την ικανότητά μας να κατηγοριοποιούμε αντικείμενα. Ο Josh Tenembaum δίνει ένα παράδειγμα που μου μίλησε πραγματικά: φανταστείτε ότι διδάσκετε ένα παιδί δύο ετών να αναγνωρίσει ένα άλογο για πρώτη φορά, του δείχνετε μια εικόνα διαφορετικών αλόγων και μετά του δείχνετε την εικόνα ενός άλλου αλόγου και την εικόνα ενός σπιτιού και ζητήστε του να σας πει ποιο είναι το άλογο. Ένα παιδί θα κάνει αυτήν την εργασία αρκετά εύκολα, αλλά εξακολουθεί να είναι κάτι που ένας υπολογιστής δεν μπορεί να κάνει καλά με τόσες λίγες εισόδους (εκμάθηση με μία λήψη).

Πώς το έκανε το παιδί;

Η αναγνώριση των ζώων έχει μελετηθεί σε παιδιά και σχετίζεται με την ικανότητά μας να αποσυνθέτουμε αντικείμενα σε σχετικά μέρη, το εύρος χρωμάτων της γούνας, το μέγεθος του λαιμού, το συνολικό σχήμα κλπ. Αυτή η ικανότητα είναι επίσης αυτό που σας επιτρέπει να ανοίξετε μια πόρτα εσείς δεν έχετε ξαναδεί, έχετε μάθει μια κινητική ακολουθία που γενικεύεται σε οποιαδήποτε κατάσταση (γενίκευση τομέα). Είναι επίσης αυτό που χρησιμοποιείτε για να δημιουργήσετε επεξηγηματικά μοντέλα που απλοποιούν τον κόσμο, ίσως να εκπλαγείτε αρχικά από την ξαφνική εμφάνιση ενός κούκου σε ένα διάσημο ελβετικό ρολόι, αλλά μετά τη δεύτερη εμφάνιση θα το περιμένετε. Η εύρεση αναλλοίωτης είναι πώς μαθαίνει ένα νευρωνικό δίκτυο και αυτά τα μοντέλα κατασκευάζονται ασυνείδητα. Ένα παράδειγμα είναι ο τρόπος με τον οποίο μαθαίνουμε διαισθητικά για τη φυσική ακόμη και πριν ακούσουμε τα μαθηματικά και τους αριθμούς.

Μπορεί κανείς να ρωτήσει για παράδειγμα πόσο γρήγορα ένα παιδί που γεννιέται στη μικροβαρύτητα θα προσαρμοστεί στη βαρύτητα της γης και θα μάθει διαισθητικά ότι τα αντικείμενα θα πέσουν στο έδαφος όταν πέσουν;

Θα μπορούσαμε να υποθέσουμε ότι τα βρέφη και τα περισσότερα ζώα θα αναθεωρήσουν ασυνείδητα το μοντέλο τους, όπως όταν βάζεις κάλτσες στα πόδια ενός σκύλου και χρειάζεται λίγο χρόνο για να προσαρμοστεί στις νέες πληροφορίες.

Αλλά για ένα μικρό παιδί θα πραγματοποιηθεί συνειδητή ανάκριση και αναθεώρηση του διαισθητικού μοντέλου του, από περιέργεια, μέσω γλώσσας, συμβόλων και πεποιθήσεων. Η ικανότητά μας να ανακρίνουμε συνειδητά και να αλλάζουμε τα μοντέλα μας είναι συναρπαστική, και ως δευτερεύουσα, οι άνθρωποι μπορεί να είναι το μόνο είδος που μπορεί να κάνει λεκτική διαδικασία αλλά άλλα είδη μπορεί να κάνουν παρόμοιες συνειδητές αναθεωρήσεις.

Η αμετάβλητη είναι μια υποχρεωτική ιδιότητα του χρόνου, εάν όλα ήταν πάντα καινούργια και με κανένα τρόπο προβλέψιμο, θα εξακολουθούσε να παραμένει αυτό το μοναδικό αναλλοίωτο ότι όλα είναι πάντα νέα και απρόβλεπτα. Είναι αδύνατο να φανταστεί κανείς έναν κόσμο χωρίς αναλλοίωτα, αφού δεν θα μπορούσε να υπάρχει ένας κόσμος για να αναφερθεί, χωρίς αναλλοίωτη ζωή θα ήταν αδύνατη και οι εγκέφαλοί μας άχρηστοι. Η ζωή είναι μια μηχανή που λειτουργεί μόνο με την προβλέψιμη επανάληψη των γεγονότων, την επανάληψη των αιτίων και των επιπτώσεων, της κυκλικής επανεισαγωγής ενέργειας στον οργανισμό. Και στην προσπάθεια της Life να βελτιώσει τη χρήση αυτών των απαραίτητων κύκλων, ο εγκέφαλός μας είναι το απόλυτο εργαλείο. Είναι μια μηχανή πρόβλεψης, ένα προσαρμοστικό όργανο που μπορεί να βρει την επανάληψη δυναμικά και να το χρησιμοποιήσει για καλύτερη αλληλεπίδραση με τον κόσμο.

Αυτή η μέθοδος που επέλεξε η ζωή είναι εξαιρετικά ισχυρή σε μικρές αλλαγές στη δομή. Αυτό που παραμένει το ίδιο είναι ο κόσμος, οι στατιστικές ιδιότητες του περιβάλλοντος, αλλά η νευρική δομή που την συναντά μπορεί να ποικίλει αρκεί να ενσωματώνει τις σχετικές πληροφορίες που εξελίχθηκε για να αντιμετωπίσει. Αυτό εξηγεί γιατί ο εγκέφαλός μας μπορεί να είναι τόσο διαφορετικός από άτομο σε άτομο, ακόμη και πρωτεύοντες φλοιοί, αλλά μοιράζονται τις ίδιες λειτουργίες.

Τα νευρικά συστήματα είναι προσαρμοστικά, δεν χρειάζονται εξέλιξη και αργές γενετικές μεταλλάξεις για να αλλάξουν τη συμπεριφορά με σχετικούς τρόπους. Ένα απλό νευρικό σύστημα, όπως αυτό που βρίσκεται στο C. Elegans, χρησιμεύει ως έμφυτος εσωτερικός συντονιστής και εξωτερικός αισθητήρας: αίσθηση τροφής και κίνηση προς αυτό, φυγή από τον πόνο, αναπαραγωγή. Αυτά τα απλά συστήματα ήταν αρχικά άκαμπτα και εκτελούσαν ακραίες προσεγγίσεις του πολύ θορυβώδους κόσμου μας, προκειμένου να τον διακριτοποιήσουν σε ένα μικρό σύνολο πιθανών καταστάσεων (φαγητό στα αριστερά, θερμότητα κάτω κλπ.). Οι κινητικές και αισθητήριες ικανότητές μας εξελίχθηκαν μαζί με τις δυνατότητες πρόβλεψης του νευρικού συστήματος. Καθώς οι αισθητήρες μας έγιναν πιο ακριβείς, το νευρικό σύστημα μπόρεσε αργά να τροποποιήσει τη δομή του για να αποθηκεύσει πληροφορίες και να μάθει από την εμπειρία. Αρχικά έγινε σε θέση να μάθει να αναγνωρίζει ορισμένες κατηγορίες εισόδων, όπως τύπους μυρωδιών ή μοτίβων φωτός, και επίσης μπόρεσε να μάθει μέσω δοκιμής και σφάλματος για τον έλεγχο του ολοένα και πιο περίπλοκου συστήματος κινητήρα του. Σημειώστε ότι ο κόσμος είναι τόσο περίπλοκος που ο εγκέφαλός μας εξελίχθηκε φυσικά προς ένα μαθησιακό παράδειγμα παρά για μια έμφυτη διαδικαστική προσέγγιση. Υπολογιστικά, αυτό έχει νόημα, ένα απλό παιχνίδι του Go έχει έναν χώρο-κατάσταση πολύ μεγαλύτερο (2,10¹⁷⁰) από τον αριθμό των ατόμων στο σύμπαν (10⁸⁰), και καθώς οι οργανισμοί γίνονται πιο περίπλοκοι προσπαθώντας να σκληρύνουν τις προσεγγίσεις όλων των δυνατών δηλώνει ότι θα μπορούσε να γίνει γρήγορα ακατανόητο λόγω της συνδυαστικής έκρηξης.

Μερικοί άνθρωποι μπορεί να πιστεύουν ότι ο εγκέφαλός μας είναι χτισμένος με τέτοιο τρόπο ώστε να αντιπροσωπεύει έμφυτα τον χώρο στον οποίο θα εξελιχθεί, ότι στο DNA κάπου υπάρχει ένα γονίδιο για αυτό που αποτελεί πρόσωπο ή η χρονική οργάνωση των ηχητικών κυμάτων που δημιουργούν πάνω λέξεις. Μπορεί να πιστεύουν ότι αυτή η έμφυτη γνώση κωδικοποιείται κάπου στη γέννηση. Άλλοι μπορεί να πιστεύουν, όπως ο δάσκαλος της φιλοσοφίας μου όταν ήμουν στο λύκειο, ότι η ύπαρξη προηγείται της ουσίας και ότι ο εγκέφαλός μας ορίζεται πλήρως και αποκλειστικά από τη συνάντηση του οργανισμού και του κόσμου. Η πραγματικότητα είναι φυσικά πιο περίπλοκη, και για τα περισσότερα telencephalic συστήματα που έχουν μελετηθεί μέχρι στιγμής, ο εγκέφαλος δεν κωδικοποιεί εγγενώς τη λειτουργία που θα εκτελέσει, αλλά θα το μάθει ανάλογα με τις πληροφορίες που περιέχονται στις εισόδους του. Εάν η εισαγωγή είναι πολύ χαμηλή σε σχετικές πληροφορίες, η ικανότητα εκμάθησης σε αυτήν τη δομή μπορεί να έχει ημερομηνία λήξης (π.χ. Αμβλυωπία). Αλλά εάν η έμφυτη δομή δεν κωδικοποιεί την τελική λειτουργία, ο εγκέφαλος έχει συγκεκριμένη δομή. Αυτή η δομή διατηρείται σε άτομα, και άτομα του ίδιου είδους μοιράζονται κοινές λειτουργίες και κινήσεις. Το DNA δημιουργεί μια συγκεκριμένη δομή στη θέση της, μια δομή που δεν είναι ικανή να εκτελεί την τελική τους λειτουργία έμφυτα, αλλά μια δομή ικανή να μάθει την πολυπλοκότητα συγκεκριμένων εργασιών με βάση την ατομική εμπειρία. Δεν προκαλεί έκπληξη το γεγονός ότι η εξέλιξη οδήγησε στην εμφάνιση ενός πολύ αποτελεσματικού φραγμού αίματος-εγκεφάλου που απομόνωσε τον εγκέφαλο από το υπόλοιπο σώμα, καθώς και τα μηνύματα και το κέλυφος του σκληρού οστού που τον προστατεύει από τον εξωτερικό κόσμο, επειδή σε αντίθεση με άλλα όργανα στα οποία η δομή είναι κωδικοποιημένη στο γονιδίωμα, η δομή ενός εκπαιδευμένου εγκεφάλου δεν μπορεί να αναγεννηθεί από ένα ενδογενώς αποθηκευμένο μοντέλο. Αυτό που είναι συναρπαστικό είναι ότι βλέπουμε τους ίδιους μηχανισμούς μάθησης που προκύπτουν αναλογικά μέσω της ανάπτυξης ολοένα και πιο περίπλοκων δικτύων βαθιάς που εκτελούν όλο και πιο περίπλοκες εργασίες.

Οι συνθετικές δομές είναι δυσδιάκριτες αλλά παντού

Ως δευτερεύον είναι παράξενο που ακόμη και οι συγγραφείς δεν αναγνωρίζουν ότι το πρώτο τους καθήκον για την επίτευξη στόχου έχει μια σύνθεση σύνθεσης.

Τα σωματίδια που επιτυγχάνουν εργασίες αποδεικνύουν όμορφα τις προκλήσεις στη γενίκευση σε ένα απλοϊκό σενάριο. Ωστόσο, οι εργασίες δεν μοιράζονται μια σύνθεση σύνθεσης, καθιστώντας δύσκολη την αξιολόγηση της γενίκευσης σε νέες εργασίες.

Παρόλο που η δομή είναι όντως χαμηλότερο επίπεδο από το στοίβαγμα μπλοκ, και δεν είναι εύκολα προσβάσιμο σε πειραματικό χειρισμό, η εργασία είναι πράγματι μια κοινή δομή. Προσέγγιση του κόσμου σε ένα επίπεδο, μια δομή σύνθεσης είναι ότι η ταυτότητα του κύβου (χρώμα) διατηρείται με μετάφραση και πηγαίνοντας από το μπλοκ Α-ή μια τυχαία αρχική θέση- στη θέση (Xa1, Ya1) στο μπλοκ Β στη θέση (Xb1, Yb2 ) είναι μέρος της ίδιας σύνθεσης υψηλότερης τάξης από τη μετάβαση από το μπλοκ Α στη θέση (Xa2, Ya2) στο μπλοκ Β στη θέση (Xb2, Yb2).

Διεπαφές μεταξύ δικτύων

Η δημιουργία νευρωνικών δικτύων ικανών να αντιμετωπίζουν εισόδους σε διαφορετικά επίπεδα αφαίρεσης θα χρειαστούν διασυνδέσεις, έναν τομέα που πιστεύω ότι παρουσιάζει πολλά ακόμη να ανακαλύψουμε. Αυτές οι διεπαφές μπορεί να είναι πολυάριθμες. Μπορούν, για παράδειγμα, να θεωρηθούν ως κοινή γλώσσα μεταξύ δύο δικτύων, όπως καταδεικνύεται στο άρθρο, ένα δίκτυο χαμηλότερου επιπέδου οπλισμένο με ένα σύστημα προσοχής (δίκτυο επίδειξης) μπορεί να μεταφράσει μια επίδειξη σε μια αναπαράσταση που μπορεί να χρησιμοποιήσει ένα άλλο δίκτυο (το δίκτυο περιβάλλοντος) να κατευθύνει τη δράση ανεξάρτητα από το μήκος ή την αρχική διαμόρφωση της επίδειξης.

Η επιφάνεια αυτής της γλώσσας είναι εδώ ένα επίπεδο, σταθερό σε μέγεθος, αλλά μπορεί κανείς να φανταστεί πιθανές αλλαγές που θα μπορούσαν να βελτιώσουν την επικοινωνία μεταξύ του δικτύου. Για παράδειγμα, το μέγεθος της επιφάνειας θα μπορούσε να ρυθμιστεί να αυξάνεται ή να συρρικνώνεται δυναμικά καθώς τα δίκτυα αλληλεπιδρούν κατά τη διάρκεια της μάθησης, συνεπώς συμπιέζοντας ή επεκτείνοντας τη γλωσσική πολυπλοκότητα. Θα μπορούσαμε επίσης να φανταστούμε πιο δυναμικές αλληλεπιδράσεις, μέσω σχολίων για παράδειγμα. Θα μπορούσαμε να φανταστούμε την ύπαρξη δικτύων διαμεσολαβητών που θα μάθουν να εξομαλύνουν την επικοινωνία μεταξύ των δικτύων, που υπάρχουν ως παράλληλο δίκτυο που μαθαίνουν να διαμορφώνουν την είσοδο του πρώτου δικτύου με βάση την είσοδο και την έξοδο του δεύτερου δικτύου. Θα μπορούσαμε να φανταστούμε σύνθετα δίκτυα περιβάλλοντος που λειτουργούν ως τονωτική (αργή μεταβολή) σε πολλαπλά πιο εξειδικευμένα δίκτυα… Συναρπαστικό μελλοντικό πεδίο έρευνας!

Οι περιπτώσεις αποτυχίας υποδηλώνουν τους πιθανούς ρόλους που θα μπορούσαν να έχουν οι νέες ενότητες

Αξίζει να σημειωθεί ότι τα σφάλματα οφείλονται συχνά σε κινητικά λάθη και ότι ο αριθμός των λαθών αυξάνεται με την πολυπλοκότητα της εργασίας.

Η λειτουργία κινητήρα δεν πρέπει να επιδεινωθεί μόνο με την αύξηση του αριθμού των στόχων, αυτό είναι μια ισχυρή απόδειξη ότι ο τρόπος με τον οποίο το δίκτυο αναπαραγωγής μαθαίνει να μιλάει στο δίκτυο κινητήρα είναι πολύ αφηρημένος. Είναι παράξενο επειδή λένε ότι η δοκιμή τους δείχνει ότι η διεπαφή μεταξύ του δικτύου περιβάλλοντος και του δικτύου κινητήρα είναι σχετικά συγκεκριμένη (θέση του ρομπότ, θέση του στόχου).

Πιθανή λύση θα μπορούσε να είναι, δεδομένου ότι πρόκειται για αρθρωτή αρχιτεκτονική, για χρήση διαφορετικών λειτουργιών απώλειας ή λειτουργικών αρθρωτών απωλειών που αντιπροσωπεύουν κάθε μια συγκεκριμένη πτυχή της εργασίας. Θα βοηθούσε επίσης ένα ισοδύναμο των εγκεφαλικών προ-κινητικών περιοχών για να διασφαλιστεί η επίδειξη και το δίκτυο περιβάλλοντος μπορεί να παραμείνει αφηρημένο χωρίς να επιδεινωθεί η εντολή κινητήρα. Οι περιοχές premotor είναι απαραίτητες για την καλύτερη προσαρμογή των αντικειμένων βάσει του στόχου (από αφηρημένα δίκτυα) και των αισθητηριακών εισόδων, προκειμένου να επιλέξετε την καλύτερη εντολή κινητήρα. Φαίνεται ότι το δίκτυο περιβάλλοντος προσπαθεί να μεταφέρει την επίδειξη σε υψηλότερο επίπεδο ενσωμάτωσης και να προετοιμάσει την κινητική δράση ταυτόχρονα σε ένα τρέχον πλαίσιο. Ο ρόλος ενός προ-κινητήρα δικτύου θα ήταν να μάθει να επικοινωνεί με το σύστημα κινητήρα με στόχο προσανατολισμένο και προσαρμοσμένο, συνδυάζοντας τόσο τις λειτουργίες του προωθητή όσο και της παρεγκεφαλίδας για εκμάθηση κινητήρα και γρήγορη προσαρμογή.

Υπάρχει μια ενδιαφέρουσα θεωρία, το παράδοξο του Moravec, που προβλέπει ότι δεν θα είναι υψηλότερου επιπέδου γνώση που θα υπολογιστεί φορολογικά, αλλά η επεξεργασία των αισθητηριακών εισόδων και των εξόδων συστημάτων κινητήρα. Αυτό θα μπορούσε πράγματι να εξηγήσει τη μεγάλη ποσότητα νευρώνων που υπάρχουν στην παρεγκεφαλίδα μας (περισσότερο από ό, τι στον υπόλοιπο εγκέφαλό μας) για τον προσαρμοστικό έλεγχο της κινητικής δράσης. Αυτό το παράδοξο διατυπώθηκε σε μια εποχή (τη δεκαετία του '80) που εξακολουθούσαμε να πιστεύουμε ότι θα μπορούσαμε να ενσωματώσουμε τις γνώσεις μας σε μια μηχανή για να εκτελέσουμε πολύπλοκες εργασίες σε ανεξέλεγκτα θορυβώδη περιβάλλοντα. Φυσικά, αυτό το παράδοξο έχει νόημα αν με κάποιο τρόπο το μηχάνημα είναι σε θέση να αντιπροσωπεύσει τον κόσμο σε ένα διακριτό σύνολο καταστάσεων, η κατασκευή υψηλότερου επιπέδου λειτουργίας θα ήταν ευκολότερη. Πιστεύω όμως ότι και τα δύο θα αποδειχθούν εξαιρετικά φορολογικά, και η εσωτερική αναπαράσταση που χρησιμοποιείται στη διεπαφή μεταξύ των δικτύων θα απέχει πολύ από οτιδήποτε μοιάζει με τις δικές μας συνειδητές αναπαραστάσεις.

συμπέρασμα

Συνδυάζοντας διαφορετικά νευρωνικά δίκτυα το καθένα που είναι υπεύθυνο για μια συγκεκριμένη αντιμετώπιση του προβλήματος, αυτό το άρθρο δείχνει ότι δημιουργώντας μια εργασία που εγγενώς χρειάζεται γενίκευση και δημιουργώντας ένα κατάλληλο μαθησιακό περιβάλλον μέσω τυχαιοποίησης τομέα, ένα νευρωνικό δίκτυο με πρόσβαση σε μνήμη και ένα το σύστημα προσοχής μπορεί να μάθει να γενικεύεται πέρα ​​από την απλή αναπαραγωγή. Μπορεί να μάθει να ανακαλύπτει έναν στόχο υψηλότερης τάξης που έχει αποδειχθεί μόνο μία φορά σε μια οπτική ροή πληροφοριών και εκτελεί υπολογισμούς σε έναν γενικευμένο χώρο για να ανακτήσει τις κατάλληλες ενέργειες που μπορούν να αναπαραγάγουν αυτόν τον στόχο σε διαφορετικό πλαίσιο.

Στο μέλλον θα δούμε μια αυξανόμενη πολυπλοκότητα δομών πάνω σε αυτά τα ατομικά δομικά στοιχεία που μπορούν να μάθουν να γενικεύουν πολύπλοκες εργασίες, αλλά το πιο σημαντικό είναι να εκτελούν πολλές από αυτές τις εργασίες, σε νέα περιβάλλοντα, με λιγότερη εξάρτηση από σκληρές κωδικοποιημένες μεθόδους όπως η προεπεξεργασία εισόδων ή αποθήκευση μνήμης. Η αποθήκευση μνήμης θα αντικατασταθεί από κατανεμημένες αναπαραστάσεις σε ένα δίκτυο μνήμης, τα συστήματα προσοχής θα αντικατασταθούν από κυκλική δραστηριότητα σε δίκτυα προσοχής σε πραγματικό χρόνο. Το ερώτημα παραμένει πώς θα είμαστε σε θέση να προσαρμόσουμε μια ισχυρή σειριακή τεχνολογία (μηχανές Turing) στην αυξημένη εξάρτησή μας από κατανεμημένους υπολογιστές σε ενσωματωμένο σύστημα.