Ein punktweise Aufmerksamkeit freier Transformer

Wir stellen den Dot Product Attention Free Transformer (DAFT) vor, eine effiziente Variante von Transformers citep{transformer}, die das Abfrage-Schlüssel-Skalarprodukt im Self-Attention-Mechanismus eliminiert. Der zentrale Ansatz besteht darin, für jede Dimension des Abfragewerts, des Schlüsselwerts und des Wertwerts eine zerlegbare Aufmerksamkeitskarte zu konstruieren. Diese Kompositionsfähigkeit ermöglicht eine Implementierung, bei der der Aufmerksamkeitstensor nicht explizit berechnet oder gespeichert werden muss. Eine DAFT-Schicht weist eine Speicherkomplexität auf, die linear sowohl in Bezug auf die Kontextgröße als auch in Bezug auf die Merkmalsdimension ist, wodurch sie sowohl mit großen Eingabegrößen als auch mit großen Modellgrößen kompatibel ist. Außerdem führen wir DAFT-conv ein, eine Modellvariante, die Lokalität und räumliche Gewichtsweiterverwendung nutzt, während globale Verbindungen erhalten bleiben. Wir führen Experimente auf der ImageNet-1K-Klassifizierung sowie auf den beiden autoregressiven Modellierungsaufgaben CIFAR10 und Enwik8 durch. Wir zeigen, dass DAFT auf allen Benchmarks wettbewerbsfähige Leistung erzielt und gleichzeitig hervorragende Effizienz bietet.