vor 17 Tagen

Nyströmformer: Ein auf Nyström basierender Algorithmus zur Approximation von Self-Attention

Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung, Yin Li, Vikas Singh

Abstract

Transformers sind zu einem leistungsfähigen Werkzeug für eine Vielzahl von Aufgaben im Bereich des natürlichen Sprachverstehens geworden. Eine zentrale Komponente, die die beeindruckende Leistungsfähigkeit von Transformers antreibt, ist die Selbst-Attention-Mechanismus, der die Beeinflussung oder Abhängigkeit anderer Tokens auf jeden einzelnen Token kodiert. Obwohl dieser Mechanismus von großem Nutzen ist, beschränkt die quadratische Komplexität der Selbst-Attention bezüglich der Länge der Eingabefolge deren Anwendung auf längere Folgen – ein Thema, das derzeit aktiv in der Forschungsgemeinschaft untersucht wird. Um diese Beschränkung zu überwinden, schlagen wir Nyströmformer vor, ein Modell, das sich durch günstige Skalierbarkeit in Abhängigkeit von der Folgenlänge auszeichnet. Unser Ansatz basiert auf der Anpassung der Nyström-Methode, um die herkömmliche Selbst-Attention mit einer Komplexität von $O(n)$ zu approximieren. Die Skalierbarkeit von Nyströmformer ermöglicht die Anwendung auf längere Folgen mit Tausenden von Tokens. Wir evaluieren das Modell an mehreren Downstream-Aufgaben des GLUE-Benchmarks und von IMDB-Bewertungen bei standardmäßiger Folgenlänge und stellen fest, dass Nyströmformer vergleichbare, in einigen Fällen sogar leicht bessere Ergebnisse als die herkömmliche Selbst-Attention erzielt. Bei längeren Folgen in der Long Range Arena (LRA)-Benchmarks erzielt Nyströmformer gegenüber anderen effizienten Selbst-Attention-Methoden günstige Ergebnisse. Unser Quellcode ist unter https://github.com/mlpen/Nystromformer verfügbar.