HyperAIHyperAI

Command Palette

Search for a command to run...

cosFormer : Repenser le Softmax dans l'Attention

Zhen Qin Weixuan Sun Hui Deng Dongxu Li Yunshen Wei Baohong Lv Junjie Yan Lingpeng Kong Yiran Zhong

Résumé

Transformer a connu un succès remarquable dans le traitement du langage naturel, la vision par ordinateur et le traitement audio. Comme l’un de ses composants fondamentaux, l’attention softmax permet de capturer des dépendances à longue portée, mais son échelle est limitée en raison de sa complexité spatiale et temporelle quadratique par rapport à la longueur de la séquence. Les méthodes à noyaux sont fréquemment employées pour réduire cette complexité en approximant l’opérateur softmax. Toutefois, en raison des erreurs d’approximation, leurs performances varient selon les tâches ou les corpus, et elles subissent des baisses critiques de performance par rapport à l’attention softmax classique. Dans cet article, nous proposons un modèle Transformer linéaire appelé cosFormer, capable d’atteindre une précision comparable ou supérieure à celle du Transformer classique, tant dans les attentions causales que croisées. cosFormer repose sur deux propriétés clés de l’attention softmax : i) la non-négativité de la matrice d’attention ; ii) un schéma de réajustement non linéaire permettant de concentrer la distribution de la matrice d’attention. En tant qu’alternative linéaire, cosFormer respecte ces propriétés grâce à un opérateur linéaire et un mécanisme de réajustement basé sur la distance cosinus. Des expériences étendues sur des tâches de modélisation linguistique et de compréhension de texte démontrent l’efficacité de notre approche. Nous étudions également son comportement sur des séquences longues, où nous obtenons des performances de pointe sur le benchmark Long-Range Arena. Le code source est disponible à l’adresse suivante : https://github.com/OpenNLPLab/cosFormer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
cosFormer : Repenser le Softmax dans l'Attention | Articles | HyperAI