vor 18 Tagen

Darstellungsschiebung: Vereinheitlichung der Token-Kompression mit FlashAttention

Joonmyung Choi, Sanghyeok Lee, Byungoh Ko, Eunseo Kim, Jihyung Kil, Hyunwoo J. Kim

Abstract

Transformers haben in Bereichen wie Bildverarbeitung, Sprache und Video bemerkenswerte Erfolge erzielt. Doch mit zunehmender Aufgabenkomplexität wachsen Modelle und die Anzahl der Tokens, was die quadratische Kostenstruktur der Selbst-Attention und die Overhead-Kosten des GPU-Speicherzugriffs erhöht. Um die Rechenkosten der Selbst-Attention zu reduzieren, haben frühere Arbeiten Token-Kompressionsverfahren vorgeschlagen, die überflüssige oder weniger informative Tokens entfernen. Gleichzeitig wurden gefügte Attention-Kerne wie FlashAttention entwickelt, um den Speicheraufwand zu verringern, indem die Konstruktion der Attention-Map und der damit verbundenen I/O-Operationen an den HBM (High Bandwidth Memory) vermieden werden. Dies macht die Verfahren jedoch inkompatibel mit den meisten trainingsfreien Token-Kompressionsansätzen, die auf den Attention-Maps basieren, um die Relevanz einzelner Tokens zu bestimmen. In diesem Beitrag stellen wir Representation Shift vor – eine trainingsfreie, modellunabhängige Metrik, die das Ausmaß der Veränderung der Repräsentation jedes Tokens misst. Diese Methode lässt sich nahtlos mit FlashAttention integrieren, ohne dass Attention-Maps oder ein erneutes Training erforderlich sind. Unser Ansatz verallgemeinert sich darüber hinaus auch auf CNNs und State-Space-Modelle. Umfangreiche Experimente zeigen, dass Representation Shift eine effektive Token-Kompression ermöglicht, die mit FlashAttention kompatibel ist und bei der Video-Text-Abfrage sowie der Video-Frage-Antwort-Aufgabe Geschwindigkeitssteigerungen von bis zu 5,5 % bzw. 4,4 % erzielt. Der Quellcode ist unter https://github.com/mlvlab/Representation-Shift verfügbar.