HyperAI

Jenseits homogener Aufmerksamkeit: Speichereffiziente LLMs durch Fourier-approximierten KV-Cache

Xiaoran Liu, Siyang He, Qiqi Wang, Ruixiao Li, Yuerong Song, Zhigeng Liu, Linlin Li, Qun Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
Veröffentlichungsdatum: 6/16/2025
Jenseits homogener Aufmerksamkeit: Speichereffiziente LLMs durch
Fourier-approximierten KV-Cache
Abstract

Große Sprachmodelle (Large Language Models) haben Schwierigkeiten mit den steigenden Speicheranforderungen des wachsenden Schlüssel-Wert-Caches (Key-Value Cache), wenn die Kontextlängen zunehmen. Existierende Kompressionsmethoden homogenisieren die Kopfdimensionen oder basieren auf aufmerksamkeitsgeleiteter Token-Reduktion, was oft zu Genauigkeitsverlusten oder zusätzlichen Rechenaufwänden führt. Wir schlagen FourierAttention vor, einen trainingsfreien Ansatz, der die heterogenen Rollen der Transformer-Kopfdimensionen ausnutzt: niedrigere Dimensionen priorisieren den lokalen Kontext, während höhere Dimensionen langfristige Abhängigkeiten erfassen. Durch die Projektion der kontextunabhängigen Dimensionen auf orthogonale Fourier-Basen approximiert FourierAttention ihre zeitliche Entwicklung mit festgelegten spektralen Koeffizienten. Auswertungen an LLaMA-Modellen zeigen, dass FourierAttention die beste Langkontextgenauigkeit bei LongBench und Needle-In-A-Haystack (NIAH) erreicht. Darüber hinaus wurde ein benutzerdefinierter Triton-Kernel, FlashFourierAttention, entwickelt, um durch optimierte Lese-Schreiboperationen den Speicherverbrauch zu minimieren und eine effiziente Bereitstellung ohne Leistungseinbußen zu ermöglichen.