HyperAIHyperAI

Command Palette

Search for a command to run...

Primal-Attention : l'attention autonome par décomposition SVD à noyau asymétrique dans la représentation primaire

Yingyi Chen Qinghua Tao Francesco Tonin Johan A.K. Suykens

Résumé

Récemment, une nouvelle lignée de travaux s’est développée afin de mieux comprendre et améliorer l’attention auto dans les Transformers en la traitant comme une machine à noyau. Toutefois, les approches existantes appliquent des méthodes conçues pour les noyaux symétriques à l’attention auto asymétrique, ce qui engendre un écart non négligeable entre la compréhension analytique et la mise en œuvre numérique. Dans cet article, nous proposons une nouvelle perspective pour représenter et optimiser l’attention auto via une Décomposition en Valeurs Singulières Asymétrique du Noyau (KSVD asymétrique), motivée notamment par la propriété de faible rang de l’attention auto, fréquemment observée dans les couches profondes. Grâce à cette KSVD asymétrique, nous obtenons : i) une représentation primale-duale de l’attention auto, dans laquelle l’objectif d’optimisation se traduit par la maximisation des variances de projection dans les sorties d’attention ; ii) un nouveau mécanisme d’attention, nommé Primal-Attention, proposé à partir de la représentation primaire de la KSVD, évitant ainsi le calcul explicite de la matrice noyau dans la représentation duale ; iii) en s’appuyant sur les conditions de KKT, nous démontrons que la solution stationnaire de l’optimisation KSVD dans Primal-Attention conduit à une valeur objective nulle. Ainsi, l’optimisation KSVD peut être mise en œuvre simplement en minimisant une perte de régularisation, promouvant naturellement la propriété de faible rang sans décomposition supplémentaire. Des expériences numériques montrent que Primal-Attention atteint des performances de pointe tout en offrant une efficacité améliorée. En outre, nous démontrons que l’optimisation KSVD déployée régularise Primal-Attention en lui conférant une décroissance plus rapide des valeurs singulières par rapport à l’attention auto canonique, confirmant ainsi le grand potentiel de notre méthode. À notre connaissance, ce travail constitue le premier à proposer une représentation primale-duale pour un noyau asymétrique dans le cadre de l’attention auto, et à l’appliquer avec succès à la modélisation et à l’optimisation.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Primal-Attention : l'attention autonome par décomposition SVD à noyau asymétrique dans la représentation primaire | Articles | HyperAI