HyperAIHyperAI
il y a 10 jours

Transformers compressives pour la modélisation de séquences à longue portée

Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap
Transformers compressives pour la modélisation de séquences à longue portée
Résumé

Nous présentons le Compressive Transformer, un modèle séquentiel à mémoire attentive qui compresse les souvenirs passés afin de faciliter l'apprentissage sur de longues séquences. Nous constatons que le Compressive Transformer obtient des résultats de pointe en modélisation linguistique sur les benchmarks WikiText-103 et Enwik8, atteignant respectivement 17,1 ppl et 0,97 bpc. Nous montrons également qu’il est capable de modéliser efficacement les signaux vocaux à haute fréquence et peut servir de mécanisme de mémoire en apprentissage par renforcement, comme démontré sur une tâche de correspondance d'objets. Pour stimuler le domaine de l'apprentissage sur de longues séquences, nous proposons un nouveau benchmark de modélisation linguistique à vocabulaire ouvert, dérivé de livres, appelé PG-19.