Μια ελαφριά εισαγωγή στο Transformer-XL

Περίληψη μιας νέας τεχνικής για προσεκτική μοντελοποίηση γλωσσών που υποστηρίζει μακροπρόθεσμη εξάρτηση.

Ιστορικό

Η μοντελοποίηση γλωσσών αντιμετωπίστηκε πρόσφατα χρησιμοποιώντας μεθόδους εκπαίδευσης χωρίς επίβλεψη, όπως ELMo και BERT. Ωστόσο, παραμένει μια πρόκληση για τον σωστό εξοπλισμό των νευρωνικών δικτύων με μακροχρόνια εξάρτηση.

Τα πρόσφατα μοντέλα σχεδιάστηκαν με έναν μηχανισμό προσοχής για να διευκολύνουν τη βελτιστοποίηση - αντιμετωπίζοντας την κλίση που εξαφανίζεται - και επιτρέπουν την εκμάθηση της μακροπρόθεσμης εξάρτησης. Ωστόσο, το πλαίσιο είναι σταθερού μήκους σε αυτές τις περιπτώσεις, έτσι το μοντέλο δεν μπορεί να συλλάβει μακροπρόθεσμη εξάρτηση και πάσχει από ένα πρόβλημα γνωστό ως κατακερματισμός περιβάλλοντος.

Ο κατακερματισμός περιεχομένου αναφέρεται όταν το μοντέλο δεν διαθέτει τις απαραίτητες πληροφορίες με βάση τα συμφραζόμενα για την πρόβλεψη των πρώτων συμβόλων λόγω του τρόπου με τον οποίο επιλέχθηκε το πλαίσιο - συνήθως χωρίς σεβασμό σε μια πρόταση ή σημασιολογικά όρια.

Επιπλέον, τα προηγούμενα μοντέλα δεν υποστηρίζουν τη ροή πληροφοριών σε διάφορα τμήματα κατά τη διάρκεια της εκπαίδευσης και χρησιμοποιούν σταθερό μήκος περιβάλλοντος, πράγμα που σημαίνει ότι δεν υπάρχει χώρος για το μοντέλο να συλλάβει μακροπρόθεσμη εξάρτηση.

Στο πλαίσιο της μοντελοποίησης γλωσσών, οι κρυφές καταστάσεις μπορούν να επαναχρησιμοποιηθούν για να επιτρέψουν τη ροή πληροφοριών σε διάφορα τμήματα (ένα είδος μνήμης). Αυτό θα μπορούσε να βοηθήσει στην υποστήριξη της μακροπρόθεσμης εξάρτησης και στην αντιμετώπιση του κατακερματισμού του περιβάλλοντος. Ωστόσο, για να υποστηρίξει η αρχιτεκτονική την επαναχρησιμοποίηση της κατάστασης, πρέπει να διαχειριστεί τη χρονική συνοχή, όπως συζητάμε στη συνέχεια.

Μετασχηματιστής-XL

Κατά τη διάρκεια της προπόνησης, τα μοντέλα γλώσσας βανίλιας δεν κάνουν αποτελεσματική χρήση πληροφοριών περιβάλλοντος και τα τμήματα αντιμετωπίζονται ξεχωριστά. Επιπλέον, τα σημασιολογικά όρια κατά την τμηματοποίηση συνήθως δεν γίνονται σεβαστά, καθώς οι περισσότερες μέθοδοι χρησιμοποιούν τυπικές σειρές σταθερού μήκους. Κατά τη διάρκεια της αξιολόγησης, χρησιμοποιούνται περιβάλλοντα σταθερού μήκους και τα τμήματα υποβάλλονται σε επεξεργασία από το μηδέν, το οποίο καθίσταται ακριβό, παρόλο που ο κατακερματισμός περιβάλλοντος αντιμετωπίζεται κάπως. Αυτή η εργασία έχει ως στόχο να επικεντρωθεί στο πρόβλημα της αποτελεσματικότητας με την καλύτερη μοντελοποίηση της μακροπρόθεσμης εξάρτησης.

Στη μοντελοποίηση γλωσσών, τα δίκτυα Transformer περιορίζονται από ένα πλαίσιο σταθερού μήκους και έτσι μπορούν να βελτιωθούν μέσω της εκμάθησης μακροπρόθεσμης εξάρτησης. Η εργασία προτείνει μια νέα μέθοδο που ονομάζεται Transformer-XL (που σημαίνει πολύ μεγάλη) για τη μοντελοποίηση γλωσσών, η οποία επιτρέπει σε μια αρχιτεκτονική Transformer να μάθει μακροπρόθεσμη εξάρτηση - μέσω ενός μηχανισμού υποτροπής - πέρα ​​από ένα σταθερό μήκος χωρίς να διαταράσσεται η χρονική συνοχή.

Η μέθοδος είναι διαφορετική από άλλες προηγούμενες προσεγγίσεις που εστιάζουν σε άλλες στρατηγικές για την υποστήριξη μακροπρόθεσμης εξάρτησης, όπως πρόσθετα σήματα απώλειας και αυξημένη δομή μνήμης.

Παρουσιάζεται ένας επαναλαμβανόμενος μηχανισμός επιπέδου τμήματος που επιτρέπει στο μοντέλο να επαναχρησιμοποιεί τις προηγούμενες κρυφές καταστάσεις κατά το χρόνο εκπαίδευσης, αντιμετωπίζοντας τόσο τα θέματα του σταθερού μήκους περιβάλλοντος όσο και τον κατακερματισμό του περιβάλλοντος. Με άλλα λόγια, οι ιστορικές πληροφορίες μπορούν να επαναχρησιμοποιηθούν και μπορούν να επεκταθούν έως και όσο επιτρέπει η μνήμη GPU. Δείτε τις φάσεις εκπαίδευσης και αξιολόγησης στο παρακάτω σχήμα.

Transformer-XL - φάση εκπαίδευσης και αξιολόγησης (πηγή εικόνας)

Για τη σωστή επαναχρησιμοποίηση κρυφών καταστάσεων, οι συγγραφείς προτείνουν έναν μηχανισμό που ονομάζεται σχετική κωδικοποίηση θέσης που βοηθά στην αποφυγή της χρονικής σύγχυσης. Τα τρέχοντα μοντέλα δεν μπορούν να διακρίνουν τη διαφορά θέσης μεταξύ εισόδων σε διαφορετικά τμήματα σε διαφορετικά επίπεδα. Η σχετική κωδικοποίηση θέσης αντιμετωπίζει αυτό το πρόβλημα κωδικοποιώντας μεροληψία πληροφοριών θέσης στις κρυφές καταστάσεις, η οποία διαφέρει από άλλες προσεγγίσεις που το εκτελούν ως επίπεδο εισόδου.

Δεδομένου ότι εμπλέκεται μια αρχιτεκτονική Transformer, η παραπάνω διαδικασία επιτυγχάνεται με τον υπολογισμό της σχετικής απόστασης μεταξύ κάθε βασικού διανύσματος και διανύσματος ερωτήματος και εγχέοντας τον στη βαθμολογία προσοχής. Με κάποιο νέο τέχνασμα παραμετροποίησης των όρων που χρησιμοποιούνται για την απόκτηση της βαθμολογίας προσοχής μεταξύ ερωτήματος και διανύσματος, οι σχετικές πληροφορίες θέσης μπορούν να ενσωματωθούν. Το στοιχείο επανάληψης είναι πλέον εξοπλισμένο με την προτεινόμενη σχετική ενσωμάτωση θέσης και αυτή η όλη διαδικασία αντιπροσωπεύει την προτεινόμενη αρχιτεκτονική Transformer-XL.

Αποτελέσματα

Το Transformer-XL επιτυγχάνει ισχυρά αποτελέσματα τόσο για μοντελοποίηση γλώσσας σε επίπεδο λέξεων όσο και σε επίπεδο χαρακτήρων που εφαρμόζονται σε μια ποικιλία συνόλων δεδομένων όπως το WikiText-103, το κείμενο8 και το One Billion Word.

Το προτεινόμενο μοντέλο συγκρίνεται με ένα μοντέλο βανίλιας που χρησιμοποιήθηκε πρόσφατα για μοντελοποίηση γλωσσών σε επίπεδο χαρακτήρων (Al-Rfou et al., 2018), το οποίο αξιοποιεί επίσης βαθύτερη αυτο-προσοχή. Σημειώστε ότι το μοντέλο βανίλιας δεν μπορεί να υποστηρίξει μήκη εξάρτησης μεγαλύτερα από το μήκος του άνω ορίου τμήματος.

Το Transformer-XL μειώνει την προηγούμενη βαθμολογία αμηχανίας SoTA σε πολλά σύνολα δεδομένων, όπως text8, enwiki8, One Billion Word και WikiText-103. Εκτός από τις παραστάσεις SoTA, οι συγγραφείς ισχυρίζονται ότι η μέθοδος είναι πιο ευέλικτη, ταχύτερη κατά την αξιολόγηση (1874 φορές επιτάχυνση), γενικεύεται καλά σε μικρά σύνολα δεδομένων και είναι αποτελεσματική στη μοντελοποίηση μικρών και μεγάλων ακολουθιών. Δείτε μια περίληψη ορισμένων από τα αποτελέσματα που αποκτήθηκαν στα διαφορετικά σύνολα δεδομένων στους παρακάτω πίνακες.

Μπορείτε να δείτε τα υπόλοιπα αποτελέσματα στο πλήρες έγγραφο που συνδέεται παρακάτω.

Αλλα οφέλη

Μια μελέτη αφαίρεσης για να εξετάσει τα αποτελέσματα τόσο του μηχανισμού υποτροπής όσο και του προτεινόμενου σχήματος κωδικοποίησης θέσης παρέχεται επίσης στο έγγραφο.

Οι συγγραφείς προτείνουν επίσης μια νέα μέτρηση που ονομάζεται Σχετικό αποτελεσματικό μήκος περιβάλλοντος που παρέχει έναν δίκαιο τρόπο σύγκρισης μοντέλων που έχουν δοκιμαστεί με αυξημένα μήκη περιβάλλοντος.

Περαιτέρω αναγνώσεις

  • Transformer-XL: Μοντέλα προσεκτικής γλώσσας πέρα ​​από ένα πλαίσιο σταθερού μήκους
  • Ο σχολιασμένος μετασχηματιστής από το Harvard NLP Group
  • Οδηγός προσοχής από τον Lilian Weng
  • Η προσοχή είναι το μόνο που χρειάζεστε
  • Κωδικός αποθετηρίου που σχετίζεται με το χαρτί (TensorFlow και PyTorch)
  • Μοντελοποίηση γλωσσών επιπέδου χαρακτήρων με βαθύτερη αυτο-προσοχή

Εάν εκφραστεί αρκετό ενδιαφέρον, ίσως νιώθω τον πειρασμό να προετοιμάσω έναν κώδικα για αυτό το έργο. Περιέχει πολλά διαφορετικά συστατικά που θα μπορούσαν να είναι ενδιαφέροντα και χρήσιμα για τους επαγγελματίες του NLP και τους ερευνητές.