HyperAIHyperAI

Command Palette

Search for a command to run...

Kontinuierliche Transformer: Redundanzfreie Aufmerksamkeit für Online-Inferenz

Lukas Hedegaard; Arian Bakhtiarnia; Alexandros Iosifidis

Zusammenfassung

Transformers in ihrer üblichen Form sind grundsätzlich darauf beschränkt, gesamte Token-Sequenzen anstelle einzelner Tokens zu verarbeiten. Folglich führt ihre Anwendung während der Online-Inferenz auf Zeitreihendaten zu erheblicher Redundanz aufgrund der Überlappung in aufeinanderfolgenden Token-Sequenzen. In dieser Arbeit schlagen wir neue Formulierungen des skalierten Punktmultiplikationsaufmerksamkeitsmechanismus (Scaled Dot-Product Attention) vor, die es Transformers ermöglichen, effiziente Online-Token-basierte Inferenz auf einem kontinuierlichen Eingabestrom durchzuführen. Besonders wichtig ist, dass unsere Modifikationen ausschließlich die Reihenfolge der Berechnungen betreffen, während die Ausgaben und gelernten Gewichte denen des ursprünglichen Transformer-Encoders identisch sind. Wir validieren unseren kontinuierlichen Transformer-Encoder mit Experimenten auf den Datensätzen THUMOS14, TVSeries und GTZAN und erzielen bemerkenswerte Ergebnisse: Unsere kontinuierlichen Ein- und Zweiblock-Architekturen reduzieren die Gleitkommaoperationen pro Vorhersage um bis zu 63-fach und 2,6-fach, ohne dabei die Vorhersageleistung einzubüßen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp