HyperAIHyperAI

Command Palette

Search for a command to run...

MUSE : Attente multi-échelle parallèle pour l'apprentissage séquence-à-séquence

Guangxiang Zhao Xu Sun Jingjing Xu Zhiyuan Zhang Liangchen Luo

Résumé

Dans l’apprentissage séquence-à-séquence, le mécanisme d’attention auto-attentionnelle s’est révélé extrêmement efficace et a permis des améliorations significatives sur de nombreuses tâches. Toutefois, ce mécanisme n’est pas exempt de défauts. Bien qu’il puisse modéliser des dépendances extrêmement longues, l’attention dans les couches profondes a tendance à se concentrer excessivement sur un seul token, entraînant une utilisation insuffisante des informations locales et des difficultés à représenter efficacement des séquences longues. Dans ce travail, nous explorons une approche d’apprentissage de représentations parallèles à plusieurs échelles sur des données séquentielles, dans le but de capturer à la fois les structures linguistiques à longue et à courte portée. À cette fin, nous proposons deux modèles : Parallel MUlti-Scale attEntion (MUSE) et MUSE-simple. MUSE-simple incarne l’idée fondamentale de l’apprentissage parallèle de représentations séquentielles à plusieurs échelles : il encode la séquence de manière parallèle à différentes échelles grâce à l’attention auto-attentionnelle et à des transformations ponctuelles. MUSE s’appuie sur MUSE-simple et explore l’association entre convolution et attention auto-attentionnelle afin d’apprendre des représentations séquentielles à partir d’échelles plus diversifiées. Nous nous concentrons sur la traduction automatique, où notre approche obtient des améliorations substantielles par rapport au modèle Transformer, notamment sur les séquences longues. Plus important encore, nous constatons que, bien que conceptuellement simple, son succès pratique repose sur des considérations complexes, notamment la nécessité de construire l’attention à plusieurs échelles dans un espace sémantique unifié. Dans des conditions standards, le modèle proposé atteint des performances remarquables et surpasse tous les modèles antérieurs sur trois tâches principales de traduction automatique. En outre, MUSE présente un potentiel d’accélération de l’inférence grâce à sa nature parallèle. Le code sera disponible à l’adresse suivante : https://github.com/lancopku/MUSE


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp