HyperAIHyperAI

Command Palette

Search for a command to run...

Jenseits homogener Aufmerksamkeit: Speichereffiziente LLMs durch Fourier-approximierten KV-Cache

Zusammenfassung

Große Sprachmodelle (Large Language Models) haben Schwierigkeiten mit den steigenden Speicheranforderungen des wachsenden Schlüssel-Wert-Caches (Key-Value Cache), wenn die Kontextlängen zunehmen. Existierende Kompressionsmethoden homogenisieren die Kopfdimensionen oder basieren auf aufmerksamkeitsgeleiteter Token-Reduktion, was oft zu Genauigkeitsverlusten oder zusätzlichen Rechenaufwänden führt. Wir schlagen FourierAttention vor, einen trainingsfreien Ansatz, der die heterogenen Rollen der Transformer-Kopfdimensionen ausnutzt: niedrigere Dimensionen priorisieren den lokalen Kontext, während höhere Dimensionen langfristige Abhängigkeiten erfassen. Durch die Projektion der kontextunabhängigen Dimensionen auf orthogonale Fourier-Basen approximiert FourierAttention ihre zeitliche Entwicklung mit festgelegten spektralen Koeffizienten. Auswertungen an LLaMA-Modellen zeigen, dass FourierAttention die beste Langkontextgenauigkeit bei LongBench und Needle-In-A-Haystack (NIAH) erreicht. Darüber hinaus wurde ein benutzerdefinierter Triton-Kernel, FlashFourierAttention, entwickelt, um durch optimierte Lese-Schreiboperationen den Speicherverbrauch zu minimieren und eine effiziente Bereitstellung ohne Leistungseinbußen zu ermöglichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp