LAVa: Layer-weise Verdrängung des KV-Cache mit dynamischer Budgetzuweisung

Der KV-Cache wird häufig eingesetzt, um die Inference-Geschwindigkeit von großen Sprachmodellen (LLMs) bei langen Kontexten zu beschleunigen, doch sein hoher Speicherverbrauch erfordert eine Kompression des Caches. Bisherige Kompressionsmethoden sind jedoch überwiegend heuristisch und verfügen über keine dynamische Budget-Zuweisung. Um diese Einschränkung zu überwinden, stellen wir einen einheitlichen Rahmen für die Cache-Kompression vor, der die Informationsverluste in den Residualströmen von Transformer-Modellen minimiert. Aufbauend auf diesem Ansatz analysieren wir den Verlust an Aufmerksamkeitsausgaben pro Schicht und leiten ein neues Maß zur Vergleichbarkeit von Cache-Einträgen über verschiedene Aufmerksamkeitsköpfe hinweg ab, was eine schichtweise Kompression mit dynamischen Kopf-Budgets ermöglicht. Zudem erreichen wir durch den Vergleich von Informationen zwischen Schichten eine dynamische Zuweisung von Schicht-Budgets. LAVa ist die erste einheitliche Strategie für Cache-Eviction und dynamische Budget-Zuweisung, die im Gegensatz zu früheren Ansätzen weder auf Training noch auf die Kombination mehrerer Strategien angewiesen ist. Experimente an etablierten Benchmarks (LongBench, Needle-In-A-Haystack, Ruler und InfiniteBench) belegen ihre Überlegenheit. Darüber hinaus offenbaren unsere Experimente ein neues Erkenntnis: Dynamische Schicht-Budgets sind entscheidend für Generierungsaufgaben (z. B. Code-Vervollständigung), während dynamische Kopf-Budgets eine zentrale Rolle bei Extraktionsaufgaben (z. B. extraktive Fragebeantwortung) spielen. Als vollständig dynamische Kompressionsmethode erzielt LAVa konsistent Spitzenleistung über verschiedene Aufgabentypen hinweg. Der Quellcode ist unter folgendem URL verfügbar: [https://...].