il y a 17 jours

MUSE : Attente multi-échelle parallèle pour l'apprentissage séquence-à-séquence

Guangxiang Zhao, Xu Sun, Jingjing Xu, Zhiyuan Zhang, Liangchen Luo

Résumé

Dans l’apprentissage séquence-à-séquence, le mécanisme d’attention auto-attentionnelle s’est révélé extrêmement efficace et a permis des améliorations significatives sur de nombreuses tâches. Toutefois, ce mécanisme n’est pas exempt de défauts. Bien qu’il puisse modéliser des dépendances extrêmement longues, l’attention dans les couches profondes a tendance à se concentrer excessivement sur un seul token, entraînant une utilisation insuffisante des informations locales et des difficultés à représenter efficacement des séquences longues. Dans ce travail, nous explorons une approche d’apprentissage de représentations parallèles à plusieurs échelles sur des données séquentielles, dans le but de capturer à la fois les structures linguistiques à longue et à courte portée. À cette fin, nous proposons deux modèles : Parallel MUlti-Scale attEntion (MUSE) et MUSE-simple. MUSE-simple incarne l’idée fondamentale de l’apprentissage parallèle de représentations séquentielles à plusieurs échelles : il encode la séquence de manière parallèle à différentes échelles grâce à l’attention auto-attentionnelle et à des transformations ponctuelles. MUSE s’appuie sur MUSE-simple et explore l’association entre convolution et attention auto-attentionnelle afin d’apprendre des représentations séquentielles à partir d’échelles plus diversifiées. Nous nous concentrons sur la traduction automatique, où notre approche obtient des améliorations substantielles par rapport au modèle Transformer, notamment sur les séquences longues. Plus important encore, nous constatons que, bien que conceptuellement simple, son succès pratique repose sur des considérations complexes, notamment la nécessité de construire l’attention à plusieurs échelles dans un espace sémantique unifié. Dans des conditions standards, le modèle proposé atteint des performances remarquables et surpasse tous les modèles antérieurs sur trois tâches principales de traduction automatique. En outre, MUSE présente un potentiel d’accélération de l’inférence grâce à sa nature parallèle. Le code sera disponible à l’adresse suivante : https://github.com/lancopku/MUSE