HyperAIHyperAI
vor 2 Tagen

XQuant: Das Speichermauerproblem bei der LLM-Inferez mit KV-Cache-Rekalkulation überwinden

Aditya Tomar, Coleman Hooper, Minjae Lee, Haocheng Xi, Rishabh Tiwari, Wonjun Kang, Luca Manolache, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
XQuant: Das Speichermauerproblem bei der LLM-Inferez mit KV-Cache-Rekalkulation überwinden
Abstract

Obwohl die Inferenz von großen Sprachmodellen (LLM) zu einer zentralen Arbeitslast für zahlreiche Anwendungen geworden ist, stellt deren effiziente Ausführung aufgrund des erheblichen Speicherverbrauchs und der hohen Bandbreitenanforderungen eine große Herausforderung dar. Parallel dazu haben die Rechenleistungen in den letzten Jahrzehnten kontinuierlich sowohl die Speicherkapazität als auch die Bandbreite übertroffen – ein Trend, der auch in modernen GPU-Architekturen deutlich sichtbar ist und die Schwierigkeiten bei der LLM-Inferenz weiter verschärft. Infolgedessen entstehen neue Algorithmen, die eine erhöhte Rechenlast in Kauf nehmen, um den Speicherverbrauch zu reduzieren. In diesem Zusammenhang präsentieren wir XQuant, das diesen Trend nutzt und durch Low-Bit-Quantisierung eine Größenordnung weniger Speicheranforderungen ermöglicht, wobei die Genauigkeit gegenüber den derzeitigen Spitzenmethoden zur Quantisierung des KV-Cache erheblich verbessert wird. Dies erreichen wir, indem wir die Eingabedaten der Schichten (Layer Input Activations X) quantisieren und speichern, anstatt den herkömmlichen KV-Cache zu verwenden, und stattdessen die Keys und Values während der Inferenz dynamisch rekonstruieren (rematerialisieren). Dadurch erzielen wir eine sofortige Verdopplung der Speichereffizienz im Vergleich zum KV-Cache. Durch die Anwendung von XQuant erreichen wir bis zu ∼7,7-fache Speichereinsparungen gegenüber der FP16-Basislinie bei einer Degradation der Perplexität von weniger als 0,1. Darüber hinaus nutzen wir die Tatsache, dass die X-Werte über verschiedene Schichten hinweg ähnlich sind. Auf dieser Beobachtung aufbauend führen wir XQuant-CL ein, das die zwischen-schichtliche Ähnlichkeit der X-Embeddings für eine extrem hohe Kompression ausnutzt. Bei verschiedenen Modellen erzielt XQuant-CL bis zu 10-fache Speichereinsparungen gegenüber der FP16-Basislinie bei nur 0,01-Perplexitätsdegradation und bis zu 12,5-fache Einsparungen bei lediglich 0,1-Perplexitätsdegradation. XQuant nutzt die rasant zunehmende Rechenleistung moderner Hardwareplattformen, um die Speicherbandbreitenbegrenzung zu überwinden, übertreffen dabei die derzeitigen Spitzenmethoden zur KV-Cache-Quantisierung und erreichen in einer Vielzahl von Modellen nahezu FP16-Genauigkeit.

XQuant: Das Speichermauerproblem bei der LLM-Inferez mit KV-Cache-Rekalkulation überwinden | Neueste Forschungsarbeiten | HyperAI