HyperAIHyperAI

Command Palette

Search for a command to run...

LAVa: Layer-weise Verdrängung des KV-Cache mit dynamischer Budgetzuweisung

Yiqun Shen Song Yuan Zhengze Zhang Xiaoliang Wang Daxin Jiang Nguyen Cam-Tu

Zusammenfassung

Der KV-Cache wird häufig eingesetzt, um die Inference-Geschwindigkeit von großen Sprachmodellen (LLMs) bei langen Kontexten zu beschleunigen, doch sein hoher Speicherverbrauch erfordert eine Kompression des Caches. Bisherige Kompressionsmethoden sind jedoch überwiegend heuristisch und verfügen über keine dynamische Budget-Zuweisung. Um diese Einschränkung zu überwinden, stellen wir einen einheitlichen Rahmen für die Cache-Kompression vor, der die Informationsverluste in den Residualströmen von Transformer-Modellen minimiert. Aufbauend auf diesem Ansatz analysieren wir den Verlust an Aufmerksamkeitsausgaben pro Schicht und leiten ein neues Maß zur Vergleichbarkeit von Cache-Einträgen über verschiedene Aufmerksamkeitsköpfe hinweg ab, was eine schichtweise Kompression mit dynamischen Kopf-Budgets ermöglicht. Zudem erreichen wir durch den Vergleich von Informationen zwischen Schichten eine dynamische Zuweisung von Schicht-Budgets. LAVa ist die erste einheitliche Strategie für Cache-Eviction und dynamische Budget-Zuweisung, die im Gegensatz zu früheren Ansätzen weder auf Training noch auf die Kombination mehrerer Strategien angewiesen ist. Experimente an etablierten Benchmarks (LongBench, Needle-In-A-Haystack, Ruler und InfiniteBench) belegen ihre Überlegenheit. Darüber hinaus offenbaren unsere Experimente ein neues Erkenntnis: Dynamische Schicht-Budgets sind entscheidend für Generierungsaufgaben (z. B. Code-Vervollständigung), während dynamische Kopf-Budgets eine zentrale Rolle bei Extraktionsaufgaben (z. B. extraktive Fragebeantwortung) spielen. Als vollständig dynamische Kompressionsmethode erzielt LAVa konsistent Spitzenleistung über verschiedene Aufgabentypen hinweg. Der Quellcode ist unter folgendem URL verfügbar: [https://...].


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LAVa: Layer-weise Verdrängung des KV-Cache mit dynamischer Budgetzuweisung | Paper | HyperAI