HyperAI
Back to Headlines

NVIDIA präsentiert DMS: 8-fache KV-Cache-Kompression für LLMs ohne Genauigkeitsverlust.

vor einem Monat

Forscher von NVIDIA und der University of Edinburgh haben eine neue Methode namens Dynamic Memory Sparsification (DMS) vorgestellt, die es ermöglicht, den Speicherbedarf des Key-Value (KV) Caches in Transformer-basierten großen Sprachmodellen (LLMs) zu reduzieren, ohne die Genauigkeit der Modelle zu beeinträchtigen. Dies ist besonders wichtig, da LLMs zunehmend für anspruchsvolle Aufgaben wie das Generieren langer Sequenzen oder paralleler Kette von Schlussfolgerungen benötigt werden. Die Herausforderung: KV-Cache in der Inferenz von Transformatoren Transformatoren wie GPT, LLaMA und Qwen verwenden KV-Caches, um vergangene Token-Darstellungen für die autoregressive Generierung zu speichern. Der Speicherbedarf dieses Caches wächst linear mit der Sequenzlänge und der Breite (parallelen Threads), was zu einem hohen GPU-Speicherverbrauch führt und die Inferenz durch häufigen Speicherzugriff verlangsamt. Bestehende Optimierungsverfahren für KV-Caches Bestehende Methoden zur Optimierung des KV-Caches entweder auf heuristischen Ansätzen basieren, die keine zusätzliche Trainingszeit erfordern, wie beispielsweise der Aufmerksamkeitsgewichtsbasierte Token-Entfernung, oder sie erfordern aufwändige nachträgliche Anpassungen, wie Dynamic Memory Compression (DMC). Beide Ansätze haben erhebliche Nachteile: der erste tendiert dazu, die Genauigkeit zu schädigen, während der zweite rechenintensiv ist. Dynamic Memory Sparsification (DMS): Kompression ohne Kompromisse DMS überwindet diese Einschränkungen durch einen hybriden Ansatz. Es verdünnt den KV-Cache ähnlich wie traditionelle Pruning-Methoden, aber mit einem minimalen Trainingsaufwand (ca. 1.000 Schritte) und verzögertem Entfernen von Tokens. Dadurch werden wichtige Kontextinformationen bewahrt und abrupte Genauigkeitsverluste vermieden. Das zentrale Konzept ist, dass Entfernungsentscheidungen während des Trainings differenzierbar gemacht werden, indem ein Gumbel-Sigmoid-basierter Sampling-Mechanismus verwendet wird. Tokens, die für die spätere Entfernung vorausgesagt werden, bleiben für eine gleitende Fensterdauer nutzbar, bevor sie verworfen werden, was dem Modell ermöglicht, ihren Informationsgehalt effektiver zu verarbeiten. Effiziente Nachrüstung mit minimalen Daten Im Gegensatz zu DMC, das Tausende von Trainingschritten und komplexe gradientenbasierte Optimierung erfordert, führt DMS keine zusätzlichen Parameter pro Aufmerksamkeitskopf ein. Es nutzt einen kleinen Teil des Aufmerksamkeitsmechanismus (ein einzelnes Neuron), um Entfernungen vorherzusagen. Dies macht DMS ideal für die Nachrüstung bestehender Modelle ohne architekturale Änderungen. Empirische Ergebnisse: Leistungsskalierung ohne Kostensteigerung Die Forschungsmannschaft testete DMS anhand von aufwändigen Benchmarks. Bei Modellgrößen von Qwen-R1 1.5B, 7B und 32B verbesserte DMS die exakte Übereinstimmungsleistung um 9,1 Punkte bei AIME, 7,6 bei GPQA und 9,6 bei LiveCodeBench, alles unter denselben Speicher- und Rechenkapazitätsbudgets. Im Vergleich zu top-performenden Baselines wie Quest und TOVA zeigte DMS konsistent bessere Ergebnisse sowohl in der KV-Cache-Leseeffizienz (Laufzeitproxy) als auch im Spitzen-Speicherverbrauch, wodurch es bessere Pareto-Fronten erreichte. Allgemeine Nutzen DMS hält auch bei Nicht-Reasoning-Aufgaben. Bei Benchmarks mit kurzen Kontexten wie MMLU, GSM8K und HellaSwag konnte DMS eine Leistung beibehalten, selbst bei Kompressionsverhältnissen von bis zu 4×, mit minimaler Degradation (~3,5 Punkte). Bei langen Kontexten wie Needle-in-a-Haystack und Variable Tracking übertraf DMS sogar die Standardmodelle, was darauf hinweist, dass es Probleme wie die Informationsüberdrückung in langen Sequenzen mildern kann. Fazit Zusammenfassend bietet Dynamic Memory Sparsification (DMS) eine praktische und skalierbare Lösung, um die Inferenz-Effizienz von Transformer-basierten Sprachmodellen zu steigern. Durch intelligente Kompression des KV-Caches mit minimalem Neutrainieren ermöglicht DMS es, Modelle längerfristig oder parallel zu verwenden, ohne Laufzeit oder Speicheranforderungen zu erhöhen. Seine konsistenten Verbesserungen bei einer Vielzahl von Reasoning- und allgemeinen Aufgaben unterstreichen seine Vielseitigkeit und Effektivität. In ressourcenbeschränkten Umgebungen, in denen LLMs zunehmend eingesetzt werden, bietet DMS einen überzeugenden Weg, Kompression, Genauigkeit und einfache Integration für realistische Inferenzlasten in Einklang zu bringen. Branchenbewertung und Unternehmensprofile Branchenexperten loben DMS für seine Fähigkeit, die Leistungsfähigkeit von LLMs signifikant zu steigern, ohne dabei Genauigkeit oder Ressourcen zu opfern. NVIDIA, ein führender Hersteller von Grafikkarten und Spezialchips, hat sich durch kontinuierliche Innovationen in der KI-Branche ausgezeichnet. Die University of Edinburgh ist weltweit renommiert für ihre Forschung im Bereich Künstliche Intelligenz und maschinelles Lernen. Die Zusammenarbeit zwischen beiden Institutionen verspricht, weiterhin fortschrittliche Technologien zu entwickeln, die die Zukunft der KI gestalten.

Related Links