Primal-Attention : l'attention autonome par décomposition SVD à noyau asymétrique dans la représentation primaire

Récemment, une nouvelle lignée de travaux s’est développée afin de mieux comprendre et améliorer l’attention auto dans les Transformers en la traitant comme une machine à noyau. Toutefois, les approches existantes appliquent des méthodes conçues pour les noyaux symétriques à l’attention auto asymétrique, ce qui engendre un écart non négligeable entre la compréhension analytique et la mise en œuvre numérique. Dans cet article, nous proposons une nouvelle perspective pour représenter et optimiser l’attention auto via une Décomposition en Valeurs Singulières Asymétrique du Noyau (KSVD asymétrique), motivée notamment par la propriété de faible rang de l’attention auto, fréquemment observée dans les couches profondes. Grâce à cette KSVD asymétrique, nous obtenons : i) une représentation primale-duale de l’attention auto, dans laquelle l’objectif d’optimisation se traduit par la maximisation des variances de projection dans les sorties d’attention ; ii) un nouveau mécanisme d’attention, nommé Primal-Attention, proposé à partir de la représentation primaire de la KSVD, évitant ainsi le calcul explicite de la matrice noyau dans la représentation duale ; iii) en s’appuyant sur les conditions de KKT, nous démontrons que la solution stationnaire de l’optimisation KSVD dans Primal-Attention conduit à une valeur objective nulle. Ainsi, l’optimisation KSVD peut être mise en œuvre simplement en minimisant une perte de régularisation, promouvant naturellement la propriété de faible rang sans décomposition supplémentaire. Des expériences numériques montrent que Primal-Attention atteint des performances de pointe tout en offrant une efficacité améliorée. En outre, nous démontrons que l’optimisation KSVD déployée régularise Primal-Attention en lui conférant une décroissance plus rapide des valeurs singulières par rapport à l’attention auto canonique, confirmant ainsi le grand potentiel de notre méthode. À notre connaissance, ce travail constitue le premier à proposer une représentation primale-duale pour un noyau asymétrique dans le cadre de l’attention auto, et à l’appliquer avec succès à la modélisation et à l’optimisation.