HyperAIHyperAI

Command Palette

Search for a command to run...

Ein punktweise Aufmerksamkeit freier Transformer

Joshua M. Susskind Ruixiang Zhang Hanlin Goh Chen Huang Nitish Srivastava Walter Talbott Shuangfei Zhai

Zusammenfassung

Wir stellen den Dot Product Attention Free Transformer (DAFT) vor, eine effiziente Variante von Transformers citep{transformer}, die das Abfrage-Schlüssel-Skalarprodukt im Self-Attention-Mechanismus eliminiert. Der zentrale Ansatz besteht darin, für jede Dimension des Abfragewerts, des Schlüsselwerts und des Wertwerts eine zerlegbare Aufmerksamkeitskarte zu konstruieren. Diese Kompositionsfähigkeit ermöglicht eine Implementierung, bei der der Aufmerksamkeitstensor nicht explizit berechnet oder gespeichert werden muss. Eine DAFT-Schicht weist eine Speicherkomplexität auf, die linear sowohl in Bezug auf die Kontextgröße als auch in Bezug auf die Merkmalsdimension ist, wodurch sie sowohl mit großen Eingabegrößen als auch mit großen Modellgrößen kompatibel ist. Außerdem führen wir DAFT-conv ein, eine Modellvariante, die Lokalität und räumliche Gewichtsweiterverwendung nutzt, während globale Verbindungen erhalten bleiben. Wir führen Experimente auf der ImageNet-1K-Klassifizierung sowie auf den beiden autoregressiven Modellierungsaufgaben CIFAR10 und Enwik8 durch. Wir zeigen, dass DAFT auf allen Benchmarks wettbewerbsfähige Leistung erzielt und gleichzeitig hervorragende Effizienz bietet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein punktweise Aufmerksamkeit freier Transformer | Paper | HyperAI