NVIDIA Run:ai Model Streamer senkt Kaltstart-Latenz bei LLM-Inferenz
Bei der Bereitstellung großer Sprachmodelle (LLMs) stellt die Inference-Effizienz eine zentrale Herausforderung dar, insbesondere aufgrund von Cold-Start-Latenzen – jenen Verzögerungen, die entstehen, wenn Modelle erstmals in die GPU-Speicher geladen werden. Diese Latenz kann die Benutzererfahrung beeinträchtigen und die Skalierbarkeit in dynamischen Produktionsumgebungen einschränken, besonders wenn Modelle mehrere hundert Gigabyte Speicher benötigen. Um dieses Problem anzugehen, hat NVIDIA gemeinsam mit Run:ai den NVIDIA Run:ai Model Streamer vorgestellt, ein Open-Source-Python-SDK, das das gleichzeitige Lesen von Modellgewichten aus Speicherquellen und deren direkte Streaming-Übertragung in den GPU-Speicher ermöglicht. Die Benchmarks zeigen, dass der Model Streamer gegenüber dem vLLM-Standard-Loader (HF Safetensors) und dem CoreWeave Tensorizer deutliche Verbesserungen erzielt – auch in Cloud-Umgebungen wie Amazon S3. Der klassische Ladevorgang umfasst zwei Schritte: Zunächst werden die Gewichte von der Speicherquelle in den CPU-Speicher geladen, danach transferiert der GPU-Host die Daten in den GPU-Speicher. In Cloud-Umgebungen erfolgt dieser Prozess oft über eine Zwischenspeicherung auf lokalem SSD-Storage. Traditionell laufen diese Schritte sequenziell, was zu erheblichen Latenzen führt. Der Model Streamer überwindet diesen Engpass durch eine konkurrierende, mehrfädige Ausführung: Er liest mehrere Tensoren gleichzeitig aus dem Speicher in einen dedizierten CPU-Puffer und ermöglicht gleichzeitig die Übertragung bereits geladener Tensoren von CPU nach GPU. Da GPU und CPU über PCIe unabhängig arbeiten, können Lese- und Übertragungsvorgänge zeitlich überlappend stattfinden – eine Optimierung, die die Effizienz erheblich steigert. Die Tests wurden auf AWS g5.12xlarge-Instanzen mit NVIDIA A10G-GPUs und AMD EPYC-CPU durchgeführt. In Experimenten mit GP3-SSD und IO2-SSD zeigte der Model Streamer bei hoher Konkurrenz (bis zu 16 Threads) eine bis zu sechsfache Beschleunigung gegenüber dem HF Safetensors Loader. Bei IO2-SSD erreichte er eine Ladezeit von nur 7,53 Sekunden (gegenüber 47 Sekunden beim Safetensors Loader). Auf S3-Storage übertraf der Model Streamer den CoreWeave Tensorizer deutlich: Bei 32 Streams lag die Ladezeit bei nur 4,88 Sekunden gegenüber 37,36 Sekunden beim Tensorizer – selbst mit optimaler Konfiguration. Diese Ergebnisse wurden durch mindestens dreiminütige Wartezeiten zwischen Tests sichergestellt, um Cache-Effekte auszuschließen. In Kombination mit dem vLLM-Inference-Engine reduzierte der Model Streamer die Gesamtzeit von der Modell-Ladung bis zur Inference-Ready-Zustand auf 23,18 Sekunden bei S3, gegenüber 65,18 Sekunden beim Tensorizer und 66,13 Sekunden beim Safetensors Loader auf GP3-SSD. Die Integration ist einfach, da der Model Streamer das Safetensors-Format direkt unterstützt – ohne Umwandlung der Gewichte. Industrieexperten betonen, dass der Model Streamer eine signifikante Fortschritt bei der Skalierung von LLM-Infrastrukturen darstellt, insbesondere für Cloud-native Anwendungen mit unvorhersehbarer Nachfrage. Unternehmen wie Run:ai, die sich auf KI-Infrastruktur und Ressourcenmanagement spezialisiert haben, sehen darin eine Schlüsseltechnologie für effiziente, reaktionsfähige LLM-Deployment-Strategien. Die Fähigkeit, Speicherbandbreite voll auszunutzen und Latenzen zu minimieren, macht den Model Streamer zu einem unverzichtbaren Werkzeug für Entwickler und MLOps-Teams, die hohe Verfügbarkeit und niedrige Latenz bei LLM-Inference anstreben.