HyperAIHyperAI
il y a 16 jours

Transformateur récurrent segmenté : un modèle séquence-à-séquence efficace

Yinghan Long, Sayeed Shafayet Chowdhury, Kaushik Roy
Transformateur récurrent segmenté : un modèle séquence-à-séquence efficace
Résumé

Les Transformers ont démontré une performance dominante dans divers domaines, notamment le traitement du langage naturel et la vision par ordinateur. Toutefois, leur coût computationnel croît de manière quadratique en fonction de la longueur de la séquence, ce qui rend leur utilisation prohibitif dans les applications à ressources limitées. Pour contrer ce problème, notre approche consiste à diviser toute la séquence en segments et à appliquer l’attention à chaque segment individuellement. Nous proposons un Transformer récurrent segmenté (SRformer), qui combine l’attention segmentée (locale) avec l’attention récurrente. La perte liée à la réduction de la fenêtre d’attention est compensée par l’agrégation d’informations entre segments grâce à l’attention récurrente. Le SRformer exploite la mémoire intrinsèque des neurones Recurrent Accumulate-and-Fire (RAF) pour mettre à jour le produit cumulé des clés et des valeurs. L’attention segmentée et les neurones RAF légers garantissent l’efficacité du modèle proposé. Cette approche permet d’obtenir des modèles capables de traitement séquentiel à un coût computationnel et mémoire réduit. Nous avons appliqué cette méthode aux modèles T5 et BART. Les modèles modifiés ont été évalués sur des jeux de données de résumé, notamment CNN-Dailymail, XSUM, ArXiv et MediaSUM. Notamment, en utilisant des entrées segmentées de tailles variées, le modèle proposé obtient des scores ROUGE1 de 6 à 22 % supérieurs à ceux d’un Transformer segmenté classique, et surpassent également d’autres approches de Transformers récurrents. En outre, par rapport à l’attention complète, le modèle proposé réduit d’environ 40 % la complexité computationnelle de l’attention croisée.

Transformateur récurrent segmenté : un modèle séquence-à-séquence efficace | Articles de recherche récents | HyperAI