HyperAIHyperAI
vor 11 Tagen

Fastformer: Additive Attention kann alles sein, was Sie brauchen

Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang, Xing Xie
Fastformer: Additive Attention kann alles sein, was Sie brauchen
Abstract

Der Transformer ist ein leistungsfähiges Modell für die Textverstehensaufgabe. Aufgrund seiner quadratischen Komplexität bezüglich der Länge der Eingabefolge ist er jedoch ineffizient. Obwohl es zahlreiche Ansätze zur Beschleunigung des Transformers gibt, sind diese entweder bei langen Sequenzen ineffizient oder nicht ausreichend wirksam. In diesem Paper stellen wir Fastformer vor, ein effizientes Transformer-Modell, das auf einer Additiven Aufmerksamkeit (additive attention) basiert. Im Gegensatz zur Modellierung der paarweisen Interaktionen zwischen Tokens nutzt Fastformer zunächst eine additive Aufmerksamkeitsmechanik, um globale Kontextinformationen zu erfassen, und transformiert anschließend jede Tokenrepräsentation basierend auf deren Interaktion mit den globalen Kontextdarstellungen. Auf diese Weise erreicht Fastformer eine effektive Kontextmodellierung mit linearer Komplexität. Umfangreiche Experimente an fünf Datensätzen zeigen, dass Fastformer deutlich effizienter ist als viele bestehende Transformer-Modelle und gleichzeitig vergleichbare oder sogar bessere Leistung bei der Modellierung langer Texte erzielt.

Fastformer: Additive Attention kann alles sein, was Sie brauchen | Neueste Forschungsarbeiten | HyperAI