Primal-Attention: Selbst-Attention durch asymmetrische Kernel-SVD in primaler Darstellung

Kürzlich ist eine neue Forschungslinie entstanden, die darauf abzielt, das Selbst-Attention in Transformers durch die Perspektive einer Kernel-Maschine zu verstehen und zu verbessern. Allerdings wenden bestehende Ansätze Methoden für symmetrische Kerne auf das asymmetrische Selbst-Attention an, was eine erhebliche Lücke zwischen analytischer Erkenntnis und numerischer Implementierung verursacht. In diesem Paper präsentieren wir eine neue Perspektive zur Darstellung und Optimierung des Selbst-Attention mittels asymmetrischer Kernel-Singularwertzerlegung (asymmetrische KSVD), die durch die typischerweise in tiefen Schichten beobachtete Niedrigrang-Eigenschaft des Selbst-Attention motiviert ist. Durch die asymmetrische KSVD gelingt es uns, $i$) eine primal-duale Darstellung des Selbst-Attention zu formulieren, bei der das Optimierungsziel darin besteht, die Projektionsvarianz in den Aufmerksamkeitsausgaben zu maximieren; $ii$) einen neuen Aufmerksamkeitsmechanismus, nämlich Primal-Attention, über die primale Darstellung der KSVD vorzuschlagen, wodurch die explizite Berechnung der Kernelmatrix im dualen Raum vermieden wird; $iii$) mittels der KKT-Bedingungen zu zeigen, dass die stationäre Lösung der KSVD-Optimierung im Primal-Attention ein Zielfunktionswert von Null ergibt. Auf diese Weise kann die KSVD-Optimierung durch einfache Minimierung einer Regularisierungsverlustfunktion implementiert werden, wodurch die Niedrigrang-Eigenschaft gefördert wird, ohne zusätzliche Zerlegungen erforderlich zu machen. Numerische Experimente zeigen, dass unser Primal-Attention eine state-of-the-art Leistung mit verbesserter Effizienz erzielt. Darüber hinaus demonstrieren wir, dass die eingesetzte KSVD-Optimierung das Primal-Attention regularisiert, wobei eine deutlich schärfere Abnahme der Singulärwerte im Vergleich zur kanonischen Selbst-Attention beobachtet wird, was die große Potenzialität unserer Methode weiter bekräftigt. Soweit uns bekannt ist, ist dies die erste Arbeit, die eine primal-duale Darstellung für den asymmetrischen Kernel im Selbst-Attention bereitstellt und diese erfolgreich auf Modellierung und Optimierung anwendet.