KI-Technik komprimiert Chatbot-Speicher um Faktor 3–4
Forschungsteams der Seoul National University, geleitet von Professor Hyun Oh Song vom Department für Informatik und Ingenieurwesen, haben eine neuartige KI-Technologie namens KVzip entwickelt, die die Gesprächsmerkmalsspeicher von großen Sprachmodellen (LLM) bei langen Interaktionen um das 3- bis 4-fache komprimiert. Die Technologie, die auf dem arXiv-Preprint-Server veröffentlicht wurde, adressiert ein zentrales Problem in der Entwicklung effizienter Chatbots: die wachsende Speicherauslastung und Verzögerung bei langen Dialogen. Während LLMs für Aufgaben wie Dokumenten-Zusammenfassung, Code-Generierung oder komplexes Fragen beantworten, speichern sie alle vorherigen Interaktionen im sogenannten „KV-Cache“ – einer temporären Speicherung von Fragen, Antworten und Kontextinformationen. Je länger der Dialog, desto höher der Rechenaufwand und die Latenz. Bisherige Kompressionsmethoden waren meist abhängig von der aktuellen Anfrage und verloren an Genauigkeit, wenn neue Fragen kamen. KVzip hingegen erkennt redundante oder unwichtige Informationen und behält nur das notwendige für die Wiedergewinnung des Kontexts. Wichtig: Die komprimierte Speicherung bleibt für mehrere zukünftige Fragen nutzbar, ohne erneut komprimiert zu werden. In Tests mit Open-Source-Modellen wie Llama 3.1, Qwen 2.5 und Gemma 3 zeigte KVzip eine Reduktion des Speicherverbrauchs um 3–4× und eine Verdoppelung der Antwortgeschwindigkeit – ohne Genauigkeitsverlust. Die Methode bewährte sich auch bei extrem langen Kontexten bis zu 170.000 Tokens. Zudem wurde KVzip in NVIDIA’s Open-Source-Bibliothek KVPress integriert, was eine schnelle industrielle Anwendung ermöglicht. Die Technologie ist besonders für mobile und Edge-Geräte relevant, da sie Ressourcen spart und stabile, personalisierte Interaktionen auch ohne Cloud-Verbindung erlaubt. Professor Song betont, dass KVzip ein „wiederverwendbarer, komprimierter Kontext“ ermöglicht, der für LLM-Agenten mit langem Gedächtnis entscheidend ist. Dr. Jang-Hyun Kim, Hauptforscher, sieht in KVzip eine Lösung für reale Anwendungen, die Geschwindigkeit und Konsistenz bei langen Dialogen sichert. Er wird künftig bei Apple in der AI/ML-Gruppe für Foundational Models tätig. Parallel wurden zwei weitere Arbeiten des Labors auf NeurIPS 2025 und eine in TMLR publiziert: „Q-Palette“ optimiert die Bit-Quantisierung in LLMs und steigert die Inferenzgeschwindigkeit um 36 %, während „Guided-ReST“ ein neues Reinforcement-Learning-Verfahren für bessere Such- und Schlussfolgerungsstrategien darstellt, das in Benchmark-Tests die Genauigkeit um 10 % und die Effizienz um 50 % verbessert. Zudem präsentiert die TMLR-Arbeit ein skalierbares Verfahren zur kausalen Analyse, das sich für große Systeme wie Genregulationsnetzwerke eignet. Die Entwicklung von KVzip markiert einen bedeutenden Fortschritt in der Effizienz von LLM-basierten Dialogsystemen. Branchenexperten sehen darin eine Schlüsseltechnologie für zukünftige Enterprise-Anwendungen, insbesondere in Retrieval-Augmented Generation (RAG) und personalisierten Chatbots. Die Integration bei NVIDIA unterstreicht ihre praktische Relevanz. Die Kombination aus Speichereffizienz, Geschwindigkeit und Stabilität über mehrere Interaktionen macht KVzip zu einer zentralen Innovation für skalierbare, ressourcensparende KI-Systeme – nicht nur in der Cloud, sondern auch auf Endgeräten.
