cosFormer : Repenser le Softmax dans l'Attention

Transformer a connu un succès remarquable dans le traitement du langage naturel, la vision par ordinateur et le traitement audio. Comme l’un de ses composants fondamentaux, l’attention softmax permet de capturer des dépendances à longue portée, mais son échelle est limitée en raison de sa complexité spatiale et temporelle quadratique par rapport à la longueur de la séquence. Les méthodes à noyaux sont fréquemment employées pour réduire cette complexité en approximant l’opérateur softmax. Toutefois, en raison des erreurs d’approximation, leurs performances varient selon les tâches ou les corpus, et elles subissent des baisses critiques de performance par rapport à l’attention softmax classique. Dans cet article, nous proposons un modèle Transformer linéaire appelé cosFormer, capable d’atteindre une précision comparable ou supérieure à celle du Transformer classique, tant dans les attentions causales que croisées. cosFormer repose sur deux propriétés clés de l’attention softmax : i) la non-négativité de la matrice d’attention ; ii) un schéma de réajustement non linéaire permettant de concentrer la distribution de la matrice d’attention. En tant qu’alternative linéaire, cosFormer respecte ces propriétés grâce à un opérateur linéaire et un mécanisme de réajustement basé sur la distance cosinus. Des expériences étendues sur des tâches de modélisation linguistique et de compréhension de texte démontrent l’efficacité de notre approche. Nous étudions également son comportement sur des séquences longues, où nous obtenons des performances de pointe sur le benchmark Long-Range Arena. Le code source est disponible à l’adresse suivante : https://github.com/OpenNLPLab/cosFormer.