Kontinuierliche Transformer: Redundanzfreie Aufmerksamkeit für Online-Inferenz

Transformers in ihrer üblichen Form sind grundsätzlich darauf beschränkt, gesamte Token-Sequenzen anstelle einzelner Tokens zu verarbeiten. Folglich führt ihre Anwendung während der Online-Inferenz auf Zeitreihendaten zu erheblicher Redundanz aufgrund der Überlappung in aufeinanderfolgenden Token-Sequenzen. In dieser Arbeit schlagen wir neue Formulierungen des skalierten Punktmultiplikationsaufmerksamkeitsmechanismus (Scaled Dot-Product Attention) vor, die es Transformers ermöglichen, effiziente Online-Token-basierte Inferenz auf einem kontinuierlichen Eingabestrom durchzuführen. Besonders wichtig ist, dass unsere Modifikationen ausschließlich die Reihenfolge der Berechnungen betreffen, während die Ausgaben und gelernten Gewichte denen des ursprünglichen Transformer-Encoders identisch sind. Wir validieren unseren kontinuierlichen Transformer-Encoder mit Experimenten auf den Datensätzen THUMOS14, TVSeries und GTZAN und erzielen bemerkenswerte Ergebnisse: Unsere kontinuierlichen Ein- und Zweiblock-Architekturen reduzieren die Gleitkommaoperationen pro Vorhersage um bis zu 63-fach und 2,6-fach, ohne dabei die Vorhersageleistung einzubüßen.