HyperAIHyperAI

Command Palette

Search for a command to run...

XQuant: Das Speichermauerproblem bei der LLM-Inferez mit KV-Cache-Rekalkulation überwinden

Aditya Tomar Coleman Hooper Minjae Lee Haocheng Xi Rishabh Tiwari Wonjun Kang Luca Manolache Michael W. Mahoney Kurt Keutzer Amir Gholami

Zusammenfassung

Obwohl die Inferenz von großen Sprachmodellen (LLM) zu einer zentralen Arbeitslast für zahlreiche Anwendungen geworden ist, stellt deren effiziente Ausführung aufgrund des erheblichen Speicherverbrauchs und der hohen Bandbreitenanforderungen eine große Herausforderung dar. Parallel dazu haben die Rechenleistungen in den letzten Jahrzehnten kontinuierlich sowohl die Speicherkapazität als auch die Bandbreite übertroffen – ein Trend, der auch in modernen GPU-Architekturen deutlich sichtbar ist und die Schwierigkeiten bei der LLM-Inferenz weiter verschärft. Infolgedessen entstehen neue Algorithmen, die eine erhöhte Rechenlast in Kauf nehmen, um den Speicherverbrauch zu reduzieren. In diesem Zusammenhang präsentieren wir XQuant, das diesen Trend nutzt und durch Low-Bit-Quantisierung eine Größenordnung weniger Speicheranforderungen ermöglicht, wobei die Genauigkeit gegenüber den derzeitigen Spitzenmethoden zur Quantisierung des KV-Cache erheblich verbessert wird. Dies erreichen wir, indem wir die Eingabedaten der Schichten (Layer Input Activations X) quantisieren und speichern, anstatt den herkömmlichen KV-Cache zu verwenden, und stattdessen die Keys und Values während der Inferenz dynamisch rekonstruieren (rematerialisieren). Dadurch erzielen wir eine sofortige Verdopplung der Speichereffizienz im Vergleich zum KV-Cache. Durch die Anwendung von XQuant erreichen wir bis zu ∼7,7-fache Speichereinsparungen gegenüber der FP16-Basislinie bei einer Degradation der Perplexität von weniger als 0,1. Darüber hinaus nutzen wir die Tatsache, dass die X-Werte über verschiedene Schichten hinweg ähnlich sind. Auf dieser Beobachtung aufbauend führen wir XQuant-CL ein, das die zwischen-schichtliche Ähnlichkeit der X-Embeddings für eine extrem hohe Kompression ausnutzt. Bei verschiedenen Modellen erzielt XQuant-CL bis zu 10-fache Speichereinsparungen gegenüber der FP16-Basislinie bei nur 0,01-Perplexitätsdegradation und bis zu 12,5-fache Einsparungen bei lediglich 0,1-Perplexitätsdegradation. XQuant nutzt die rasant zunehmende Rechenleistung moderner Hardwareplattformen, um die Speicherbandbreitenbegrenzung zu überwinden, übertreffen dabei die derzeitigen Spitzenmethoden zur KV-Cache-Quantisierung und erreichen in einer Vielzahl von Modellen nahezu FP16-Genauigkeit.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp