cosFormer: Die Umgestaltung des Softmax in der Aufmerksamkeit

Transformer hat erhebliche Erfolge in der natürlichen Sprachverarbeitung, der Computer Vision und der Audioverarbeitung erzielt. Als eines seiner zentralen Komponenten ermöglicht die Softmax-Attention die Erfassung langfristiger Abhängigkeiten, führt jedoch aufgrund der quadratischen räumlichen und zeitlichen Komplexität in Bezug auf die Sequenzlänge zu erheblichen Skalierungsbeschränkungen. Kernel-Methoden werden häufig eingesetzt, um die Komplexität durch Approximation des Softmax-Operators zu reduzieren. Dennoch führen die durch die Approximation verursachten Fehler dazu, dass die Leistungsfähigkeit dieser Ansätze je nach Aufgabe bzw. Korpus variiert und im Vergleich zur herkömmlichen Softmax-Attention erhebliche Leistungsverluste aufweist. In diesem Artikel stellen wir einen linearen Transformer namens cosFormer vor, der in sowohl der autoregressiven als auch der Kreuz-Attention eine vergleichbare oder sogar bessere Genauigkeit als der herkömmliche Transformer erreicht. cosFormer basiert auf zwei zentralen Eigenschaften der Softmax-Attention: i) der Nicht-Negativität der Aufmerksamkeitsmatrix; ii) einem nichtlinearen Re-Weighting-Schema, das die Verteilung der Aufmerksamkeitsmatrix konzentriert. Als lineare Alternative erfüllt cosFormer diese Eigenschaften durch einen linearen Operator und eine auf Kosinus-Abständen basierende Re-Weighting-Mechanismus. Umfassende Experimente in den Bereichen Sprachmodellierung und Textverstehen belegen die Wirksamkeit unserer Methode. Darüber hinaus untersuchen wir die Leistungsfähigkeit von cosFormer bei langen Sequenzen und erzielen eine state-of-the-art-Leistung im Long-Range Arena Benchmark. Der Quellcode ist unter https://github.com/OpenNLPLab/cosFormer verfügbar.