HyperAIHyperAI

Command Palette

Search for a command to run...

Darstellungsschiebung: Vereinheitlichung der Token-Kompression mit FlashAttention

Joonmyung Choi Sanghyeok Lee Byungoh Ko Eunseo Kim Jihyung Kil Hyunwoo J. Kim

Zusammenfassung

Transformers haben in Bereichen wie Bildverarbeitung, Sprache und Video bemerkenswerte Erfolge erzielt. Doch mit zunehmender Aufgabenkomplexität wachsen Modelle und die Anzahl der Tokens, was die quadratische Kostenstruktur der Selbst-Attention und die Overhead-Kosten des GPU-Speicherzugriffs erhöht. Um die Rechenkosten der Selbst-Attention zu reduzieren, haben frühere Arbeiten Token-Kompressionsverfahren vorgeschlagen, die überflüssige oder weniger informative Tokens entfernen. Gleichzeitig wurden gefügte Attention-Kerne wie FlashAttention entwickelt, um den Speicheraufwand zu verringern, indem die Konstruktion der Attention-Map und der damit verbundenen I/O-Operationen an den HBM (High Bandwidth Memory) vermieden werden. Dies macht die Verfahren jedoch inkompatibel mit den meisten trainingsfreien Token-Kompressionsansätzen, die auf den Attention-Maps basieren, um die Relevanz einzelner Tokens zu bestimmen. In diesem Beitrag stellen wir Representation Shift vor – eine trainingsfreie, modellunabhängige Metrik, die das Ausmaß der Veränderung der Repräsentation jedes Tokens misst. Diese Methode lässt sich nahtlos mit FlashAttention integrieren, ohne dass Attention-Maps oder ein erneutes Training erforderlich sind. Unser Ansatz verallgemeinert sich darüber hinaus auch auf CNNs und State-Space-Modelle. Umfangreiche Experimente zeigen, dass Representation Shift eine effektive Token-Kompression ermöglicht, die mit FlashAttention kompatibel ist und bei der Video-Text-Abfrage sowie der Video-Frage-Antwort-Aufgabe Geschwindigkeitssteigerungen von bis zu 5,5 % bzw. 4,4 % erzielt. Der Quellcode ist unter https://github.com/mlvlab/Representation-Shift verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Darstellungsschiebung: Vereinheitlichung der Token-Kompression mit FlashAttention | Paper | HyperAI