HyperAIHyperAI

Command Palette

Search for a command to run...

Primal-Attention: Selbst-Attention durch asymmetrische Kernel-SVD in primaler Darstellung

Yingyi Chen Qinghua Tao Francesco Tonin Johan A.K. Suykens

Zusammenfassung

Kürzlich ist eine neue Forschungslinie entstanden, die darauf abzielt, das Selbst-Attention in Transformers durch die Perspektive einer Kernel-Maschine zu verstehen und zu verbessern. Allerdings wenden bestehende Ansätze Methoden für symmetrische Kerne auf das asymmetrische Selbst-Attention an, was eine erhebliche Lücke zwischen analytischer Erkenntnis und numerischer Implementierung verursacht. In diesem Paper präsentieren wir eine neue Perspektive zur Darstellung und Optimierung des Selbst-Attention mittels asymmetrischer Kernel-Singularwertzerlegung (asymmetrische KSVD), die durch die typischerweise in tiefen Schichten beobachtete Niedrigrang-Eigenschaft des Selbst-Attention motiviert ist. Durch die asymmetrische KSVD gelingt es uns, iii) eine primal-duale Darstellung des Selbst-Attention zu formulieren, bei der das Optimierungsziel darin besteht, die Projektionsvarianz in den Aufmerksamkeitsausgaben zu maximieren; iiiiii) einen neuen Aufmerksamkeitsmechanismus, nämlich Primal-Attention, über die primale Darstellung der KSVD vorzuschlagen, wodurch die explizite Berechnung der Kernelmatrix im dualen Raum vermieden wird; iiiiiiiii) mittels der KKT-Bedingungen zu zeigen, dass die stationäre Lösung der KSVD-Optimierung im Primal-Attention ein Zielfunktionswert von Null ergibt. Auf diese Weise kann die KSVD-Optimierung durch einfache Minimierung einer Regularisierungsverlustfunktion implementiert werden, wodurch die Niedrigrang-Eigenschaft gefördert wird, ohne zusätzliche Zerlegungen erforderlich zu machen. Numerische Experimente zeigen, dass unser Primal-Attention eine state-of-the-art Leistung mit verbesserter Effizienz erzielt. Darüber hinaus demonstrieren wir, dass die eingesetzte KSVD-Optimierung das Primal-Attention regularisiert, wobei eine deutlich schärfere Abnahme der Singulärwerte im Vergleich zur kanonischen Selbst-Attention beobachtet wird, was die große Potenzialität unserer Methode weiter bekräftigt. Soweit uns bekannt ist, ist dies die erste Arbeit, die eine primal-duale Darstellung für den asymmetrischen Kernel im Selbst-Attention bereitstellt und diese erfolgreich auf Modellierung und Optimierung anwendet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp