HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA TensorRT LLM AutoDeploy beschleunigt die Inference-Optimierung von LLMs automatisch

NVIDIA stellt mit TensorRT LLM AutoDeploy eine bahnbrechende Erweiterung für die Inference-Optimierung von großen Sprachmodellen (LLMs) vor. Bisher erforderte die Bereitstellung neuer Architekturen wie Transformer, Hybrid-Vision-Text-Modelle (VLMs) oder State-Space-Modelle (SSMs) umfangreiche manuelle Anpassungen: KV-Cache-Verwaltung, Gewichts-Sharding über mehrere GPUs, Kernel-Fusion und Hardware-spezifische Optimierungen. AutoDeploy löst dieses Problem durch einen compilerbasierten Ansatz, der off-the-shelf PyTorch-Modelle automatisch in inferenzoptimierte Graphen umwandelt. Anstatt Modellautoren die Optimierung selbst vornehmen zu lassen, delegiert AutoDeploy diese Aufgaben an das Compiler- und Laufzeit-System. Dies ermöglicht eine klare Trennung zwischen Modellentwicklung und Inference-Optimierung und beschleunigt die Bereitstellung erheblich. AutoDeploy arbeitet zwischen Hugging Face-Modellen und dem TensorRT LLM-Runtime. Es nutzt torch.export, um das Modell als standardisierten Torch-Graphen zu erfassen, der dann durch automatisierte Transformationen optimiert wird. Dabei werden gängige Bausteine wie Attention, RoPE, MoE oder State-Space-Layer als einheitliche, benutzerdefinierte Operatoren (custom ops) dargestellt – unabhängig von der zugrundeliegenden Architektur. Dies erleichtert die nachfolgende Optimierung, etwa durch Caching, Sharding und Kernel-Auswahl. Besonders wertvoll ist die Unterstützung für die „long tail“ von Modellen: Forschungsarchitekturen, interne Varianten oder schnell entwickelte Open-Source-Modelle, bei denen manuelle Anpassungen oft nicht wirtschaftlich sind. AutoDeploy ermöglicht bereits bei der Markteinführung eine konkurrenzfähige Leistung, mit der Möglichkeit zu nachträglichen Verbesserungen. Die Technologie unterstützt bereits über 100 text-to-text-LLMs, bietet frühe Unterstützung für VLMs und SSMs sowie optimierte Modelle wie Llama und NVIDIA Nemotron 3 Nano. Bei der Onboarding von Nemotron 3 Nano – einem hybriden MoE-Modell – gelang es, die Bereitstellung innerhalb von Tagen statt Wochen zu bewältigen. Auf einem einzigen NVIDIA Blackwell DGX B200 erreichte AutoDeploy eine Durchsatzleistung von bis zu 350 Tokens pro Sekunde pro Nutzer und bis zu 13.000 Tokens pro Sekunde im Hochdurchsatz-Modus – nahezu identisch mit einem manuell optimierten Referenz-Backend. Auch für das komplexe Hybrid-Modell Nemotron-Flash, das verschiedene Token-Mixer wie Mamba2, DeltaNet und Softmax-Attention kombiniert, konnte AutoDeploy die Optimierung innerhalb weniger Tage realisieren, ohne spezifische Engineering-Arbeit. Benchmarking gegenüber Qwen2.5 3B Instruct zeigte dabei eine bessere Leistung bei hohen Eingabeparametern. AutoDeploy integriert zudem moderne Tooling wie torch.compile, CUDA Graphs für feste Batch-Größen, Multistream-Optimierungen und Laufzeitfunktionen wie Overlap-Scheduling, chunked Prefill oder speculative decoding – alles ohne zusätzliche Anpassungen seitens des Modellautors. Die Architektur ist erweiterbar: Neue Operatoren können über benutzerdefinierte PyTorch-Kerne eingefügt werden, ohne dass der Compiler sie verändert. Bewertung & Kontext: Industrieexperten sehen in AutoDeploy einen Meilenstein für die Produktivität im LLM-Bereich. Es verschiebt die Verantwortung für Inference-Optimierung vom Modellentwickler auf das Compiler- und Runtime-System – ein Paradigmenwechsel, der schnelleres Experimentieren, breitere Modellunterstützung und bessere Wartbarkeit ermöglicht. Unternehmen wie NVIDIA setzen damit auf eine skalierbare Infrastruktur für die zunehmende Vielfalt an LLM-Architekturen. Die Integration in TensorRT LLM, einem führenden Framework für Hochleistungs-Inference, macht AutoDeploy zu einem zentralen Baustein für die industrielle Nutzung von LLMs. Für Entwickler bietet es einen direkten Zugang zu High-Performance-Infrastruktur, ohne tiefgehende Kenntnisse in GPU-Optimierung erwerben zu müssen. Die Beta-Verfügbarkeit eröffnet frühzeitige Nutzung und Mitgestaltung – ein klares Signal für eine kompakte, automatisierte Zukunft der LLM-Bereitstellung.

Verwandte Links