HyperAIHyperAI
Back to Headlines

LLM-Infereenz beschleunigt mit CPU-GPU-Speicherteilung

vor 16 Tagen

Große Sprachmodelle wie Llama 3 70B und Llama 4 Scout 109B erfordern bei halber Genauigkeit (FP16) etwa 140 bzw. 218 GB Speicher, was die Kapazität üblicher GPUs übersteigt. Hinzu kommen zusätzliche Speicherbedarfe durch den Key-Value (KV)-Cache, der mit der Kontextlänge und der Batch-Größe linear wächst – bei 128k Tokens und einem Benutzer beträgt er allein bei Llama 3 70B etwa 40 GB. In Produktionsumgebungen führt dies häufig zu Out-of-Memory-Fehlern, wenn die Modelle vollständig in GPU-Speicher geladen werden sollen. Die Lösung liegt in der NVIDIA Grace Hopper und Grace Blackwell Architektur, die CPU und GPU über eine NVLink-C2C-Verbindung (900 GB/s) verbinden. Diese Speicher-Kohärenz schafft einen gemeinsamen, einheitlichen Speicheradressraum, sodass CPU und GPU nahtlos auf dieselben Daten zugreifen können, ohne explizite Datenübertragungen oder doppelte Kopien. Auf dem GH200 Superchip mit 96 GB GPU-Speicher und 480 GB LPDDR-CPU-Speicher wird so ein effektiver Speicherpool von bis zu 576 GB genutzt – eine entscheidende Voraussetzung für den Betrieb extrem großer Modelle. Die Implementierung erfolgt über die RAPIDS Memory Manager (RMM) Bibliothek, die managed memory allocations aktiviert. Durch die Konfiguration von rmm.reinitialize(managed_memory=True) und das Umschalten des PyTorch-Speichermanagers auf rmm_torch_allocator kann das Modell nun über den gemeinsamen Adressraum geladen werden, auch wenn es größer ist als der GPU-Speicher. Dies ermöglicht das Laden von Llama 3 70B auf einem GH200-System ohne OOM-Fehler, da die GPU automatisch auf den CPU-Speicher zugreift, wenn nötig. Der Vorteil liegt in der Transparenz: Entwickler müssen keine manuellen Datenverschiebungen zwischen CPU und GPU vornehmen. Dies beschleunigt nicht nur das Inference, sondern auch die Feinabstimmung und wissenschaftliche Berechnungen. Die Technologie ist besonders relevant für Anwendungen mit langen Kontexten, Mehrbenutzer-Szenarien oder Edge-Deployment, wo GPU-Speicher knapp ist. Industrieexperten betonen, dass die Unified-Memory-Architektur eine Schlüsseltechnologie für die nächste Generation von LLM-Infrastrukturen ist. „Mit NVLink-C2C und RMM können Unternehmen Modelle skalieren, ohne auf komplexe Datenmanagement-Strategien angewiesen zu sein“, sagt ein Experte von NVIDIA. Unternehmen wie Meta, Microsoft und AWS nutzen bereits ähnliche Ansätze in ihren Cloud-Infrastrukturen. Die GH200-Superchip-Plattform wird zunehmend zur Standard-Option für Forschung und industrielle Anwendungen, wo Effizienz, Skalierbarkeit und Kosteneffektivität im Vordergrund stehen. Zusammenfassend zeigt die Technologie, dass die Grenzen des GPU-Speichers durch intelligente Architekturen überwunden werden können – ein entscheidender Schritt für die praktische Anwendung von Großmodellen in der realen Welt.

Related Links