HyperAIHyperAI
vor 17 Tagen

Zufällige Merkmalsaufmerksamkeit

Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A. Smith, Lingpeng Kong
Zufällige Merkmalsaufmerksamkeit
Abstract

Transformers sind moderne Standardsysteme für eine Vielzahl von Aufgaben im Bereich der Sequenzmodellierung. Kernstück bildet eine Aufmerksamkeitsfunktion, die paarweise Wechselwirkungen zwischen den Eingabewerten zu jedem Zeitpunkt modelliert. Obwohl die Aufmerksamkeit leistungsstark ist, skaliert sie aufgrund ihrer quadratischen Zeit- und Speicherkomplexität in Bezug auf die Sequenzlänge ineffizient bei langen Sequenzen. Wir stellen RFA vor, eine lineare Zeit- und Speicheraufmerksamkeit, die zufällige Merkmalsmethoden nutzt, um die Softmax-Funktion zu approximieren, und untersuchen deren Anwendung in Transformers. RFA kann als direkter Ersatz für herkömmliche Softmax-Aufmerksamkeit eingesetzt werden und ermöglicht auf einfache Weise das Lernen mit einer Neigung zu aktuellen Informationen durch eine optionale Gating-Mechanismus. Experimente im Bereich der Sprachmodellierung und maschinellen Übersetzung zeigen, dass RFA eine vergleichbare oder sogar bessere Leistung im Vergleich zu starken Transformer-Baselines erzielt. Bei der maschinellen Übersetzung decodiert RFA die Hälfte der Zeit im Vergleich zu einem herkömmlichen Transformer. Im Vergleich zu bestehenden effizienten Transformer-Varianten ist RFA sowohl in Bezug auf Genauigkeit als auch Effizienz auf drei Datensätzen für die Klassifikation langer Texte konkurrenzfähig. Unsere Analyse zeigt, dass die Effizienzgewinne von RFA besonders bei langen Sequenzen auffallen, was darauf hindeutet, dass RFA besonders nützlich sein wird für Aufgaben, die große Eingabedaten, schnelle Decodierungsgeschwindigkeit oder geringen Speicherverbrauch erfordern.

Zufällige Merkmalsaufmerksamkeit | Neueste Forschungsarbeiten | HyperAI