HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur récurrent segmenté : un modèle séquence-à-séquence efficace

Yinghan Long Sayeed Shafayet Chowdhury Kaushik Roy

Résumé

Les Transformers ont démontré une performance dominante dans divers domaines, notamment le traitement du langage naturel et la vision par ordinateur. Toutefois, leur coût computationnel croît de manière quadratique en fonction de la longueur de la séquence, ce qui rend leur utilisation prohibitif dans les applications à ressources limitées. Pour contrer ce problème, notre approche consiste à diviser toute la séquence en segments et à appliquer l’attention à chaque segment individuellement. Nous proposons un Transformer récurrent segmenté (SRformer), qui combine l’attention segmentée (locale) avec l’attention récurrente. La perte liée à la réduction de la fenêtre d’attention est compensée par l’agrégation d’informations entre segments grâce à l’attention récurrente. Le SRformer exploite la mémoire intrinsèque des neurones Recurrent Accumulate-and-Fire (RAF) pour mettre à jour le produit cumulé des clés et des valeurs. L’attention segmentée et les neurones RAF légers garantissent l’efficacité du modèle proposé. Cette approche permet d’obtenir des modèles capables de traitement séquentiel à un coût computationnel et mémoire réduit. Nous avons appliqué cette méthode aux modèles T5 et BART. Les modèles modifiés ont été évalués sur des jeux de données de résumé, notamment CNN-Dailymail, XSUM, ArXiv et MediaSUM. Notamment, en utilisant des entrées segmentées de tailles variées, le modèle proposé obtient des scores ROUGE1 de 6 à 22 % supérieurs à ceux d’un Transformer segmenté classique, et surpassent également d’autres approches de Transformers récurrents. En outre, par rapport à l’attention complète, le modèle proposé réduit d’environ 40 % la complexité computationnelle de l’attention croisée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp