Remédier à certaines limitations des Transformers grâce à une mémoire par retour d'information

Les Transformers ont été efficacement appliqués aux tâches séquentielles auto-régressives, malgré leur nature de réseaux feedforward. Contrairement aux réseaux de neurones récurrents, les Transformers utilisent l’attention pour capturer les relations temporelles tout en traitant les tokens d’entrée en parallèle. Bien que cette parallélisation les rende computationnellement efficaces, elle limite leur capacité à exploiter pleinement la nature séquentielle des entrées. En effet, la représentation à une couche donnée ne peut accéder qu’aux représentations des couches inférieures, et non aux représentations de niveau supérieur déjà disponibles. Dans ce travail, nous proposons une architecture appelée Feedback Transformer, qui expose toutes les représentations antérieures à toutes les représentations futures, de sorte que la représentation la plus basse au moment courant soit formée à partir de la représentation abstraite de plus haut niveau issue du passé. Nous démontrons, sur diverses benchmarks en modélisation du langage, traduction automatique et apprentissage par renforcement, que cette augmentation de la capacité de représentation permet de concevoir des modèles peu profonds et compacts, capables d’atteindre des performances significativement supérieures à celles des Transformers comparables.