HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Dynamo unterstützt Multi-Turn Agentic Harness

NVIDIA hat in einem technischen Bericht neue Funktionen für sein Inference-Backend Dynamo vorgestellt, die speziell für den effizienten Betrieb agentischer Workflows entwickelt wurden. Der Fokus liegt dabei auf der Verbesserung der Mehrphasen-Interaktion, bei der Modelle zwischen Überlegungen und Werkzeugaufrufen wechseln müssen. Ein zentrales Problem in diesem Bereich war die konsistente Wiedergabe von Denkprozessen und die korrekte Strukturierung von API-Ergebnissen, die von den übergeordneten Client-Systemen, den sogenannten Harnesses, verarbeitet werden. Ein erhebliches Performance-Problem identifizierte NVIDIA im Umgang mit der KV-Cache-Wiederverwendung. Agenten-Clients senden oft Tausende von Token für wiederkehrende Prompt-Vorlagen, werden jedoch durch session-spezifische Header in den Anforderungsfeldern gestört, die den Cache ungültig machen. Durch die Einführung eines Mechanismus zum Entfernen dieser billingspezifischen Präambel vor der Tokenisierung konnte die Zeit bis zum ersten Token (Time-to-First-Token) in Tests um das Fünffache reduziert werden. Während ein instabiler Header eine Verzögerung von über 900 Millisekunden verursachte, sank die Latenz nach der Bereinigung auf etwa 170 Millisekunden. Ein weiterer kritischer Punkt ist die Behandlung von Denkprozessen in Kombination mit Werkzeugaufrufen. Bei komplexen agentischen Aufgaben müssen Denkabschnitte nicht nur generiert, sondern auch mit den daraus abgeleiteten Werkzeugaufrufen verknüpft bleiben, bevor sie an die nächste Runde weitergegeben werden. Bisherige Ansätze führten dazu, dass wichtige Zusammenhänge verloren gingen oder Denkprozesse zu aggressiv gekürzt wurden. Die neue Implementierung in Dynamo unterstützt nun vollständig verschachtelte Formate, bei denen Denk- und Werkzeugsegmente abwechselnd auftreten, und stellt sicher, dass diese Logik über die Sitzungswechsel hinweg erhalten bleibt. Die Streaming-Fähigkeiten wurden ebenfalls erheblich verbessert. Früher wurden Werkzeugaufrufe oft erst am Ende einer Antwort gesammelt und gesendet. Das neue System sendet nun strukturierte Werkzeugereignisse sofort nach deren Erkennung über einen separaten Kanal. Dies ermöglicht es den Harnesses, Werkzeuge auszuführen, sobald sie vom Modell festgelegt sind, anstatt auf den gesamten Antwortstrom zu warten. Dies verbessert die Reaktionszeit und die Benutzererfahrung signifikant. Zusätzlich wurde die Kompatibilität mit etablierten Schnittstellen wie der Anthropic API und dem OpenAI Responses-Interface für Tools wie Claude Code und Codex geprüft. Hierbei zeigte sich, dass nicht nur die korrekte Formatierung der HTTP-Anfragen, sondern auch die zugrundeliegende Metadatenverwaltung entscheidend ist. Unterschiede in den Modell-Katalogeinträgen, insbesondere bei Parametern wie der Länge von Werkzeugausgaben oder der Unterstützung von Denkzusammenfassungen, konnten zu signifikanten Leistungsunterschieden im Tool-Einsatz führen. Durch die Anpassung dieser Metadatenprofile konnte die Leistung eines benutzerdefinierten Endpunkts an das native OpenAI-Verhalten angeglichen werden. Für die Zukunft plant NVIDIA, verschiedene Komponenten des Agens-Stacks, einschließlich Protokoll-, Parser- und Tokenisierungsschichten, als wiederverwendbare Software-Bausteine bereitzustellen. Dies soll es Entwicklern erleichtern, benutzerdefinierte Serving-Pfade zu erstellen, ohne den Kern von Dynamo kopieren zu müssen. Zudem werden neue API-Felder eingeführt, die es ermöglichen, spezifische Anforderungen wie Latenzsensibilität oder Priorität direkt in die Anfrage zu integrieren, um komplexe und langfristige agentic Workflows noch effizienter zu unterstützen.

Verwandte Links

NVIDIA Dynamo unterstützt Multi-Turn Agentic Harness | Aktuelle Beiträge | HyperAI