vor 15 Tagen

cosFormer: Die Umgestaltung des Softmax in der Aufmerksamkeit

Zhen Qin, Weixuan Sun, Hui Deng, Dongxu Li, Yunshen Wei, Baohong Lv, Junjie Yan, Lingpeng Kong, Yiran Zhong

Abstract

Transformer hat erhebliche Erfolge in der natürlichen Sprachverarbeitung, der Computer Vision und der Audioverarbeitung erzielt. Als eines seiner zentralen Komponenten ermöglicht die Softmax-Attention die Erfassung langfristiger Abhängigkeiten, führt jedoch aufgrund der quadratischen räumlichen und zeitlichen Komplexität in Bezug auf die Sequenzlänge zu erheblichen Skalierungsbeschränkungen. Kernel-Methoden werden häufig eingesetzt, um die Komplexität durch Approximation des Softmax-Operators zu reduzieren. Dennoch führen die durch die Approximation verursachten Fehler dazu, dass die Leistungsfähigkeit dieser Ansätze je nach Aufgabe bzw. Korpus variiert und im Vergleich zur herkömmlichen Softmax-Attention erhebliche Leistungsverluste aufweist. In diesem Artikel stellen wir einen linearen Transformer namens cosFormer vor, der in sowohl der autoregressiven als auch der Kreuz-Attention eine vergleichbare oder sogar bessere Genauigkeit als der herkömmliche Transformer erreicht. cosFormer basiert auf zwei zentralen Eigenschaften der Softmax-Attention: i) der Nicht-Negativität der Aufmerksamkeitsmatrix; ii) einem nichtlinearen Re-Weighting-Schema, das die Verteilung der Aufmerksamkeitsmatrix konzentriert. Als lineare Alternative erfüllt cosFormer diese Eigenschaften durch einen linearen Operator und eine auf Kosinus-Abständen basierende Re-Weighting-Mechanismus. Umfassende Experimente in den Bereichen Sprachmodellierung und Textverstehen belegen die Wirksamkeit unserer Methode. Darüber hinaus untersuchen wir die Leistungsfähigkeit von cosFormer bei langen Sequenzen und erzielen eine state-of-the-art-Leistung im Long-Range Arena Benchmark. Der Quellcode ist unter https://github.com/OpenNLPLab/cosFormer verfügbar.