NVIDIA Dynamo : support des agents multi-tours
NVIDIA a publié une analyse détaillée sur l'optimisation de son moteur d'inférence Dynamo pour les agents d'intelligence artificielle agissants. Cette mise à jour vise à améliorer la précision, l'expérience utilisateur et les performances dans les workflows complexes où l'IA alterne entre la réflexion et l'appel d'outils. L'objectif est de garantir une compatibilité totale avec des interfaces API standards comme celles d'Anthropic et d'OpenAI, utilisées par des outils tels que Claude Code et OpenClaw. Un défi majeur identifié concerne la réutilisation du cache du contexte de connaissances (KV cache). Les en-têtes de facturation spécifiques à la session peuvent perturber la stabilité des préfixes de prompts, empêchant ainsi la mise en cache efficace. NVIDIA a introduit une fonctionnalité pour supprimer ces en-têtes instables avant la tokenisation. Les tests montrent que cette correction réduit le temps d'attente du premier jeton (TTFT) de cinq fois, passant de 912 millisecondes à 168 millisecondes sur un déploiement de 52 000 jetons, car elle permet une réutilisation efficace des instructions stables. La gestion du raisonnement et des appels d'outils a également été affinée. Contrairement aux modèles classiques, les agents intercalent souvent des segments de réflexion et des appels d'outils dans une même réponse. Il est crucial de conserver la structure de ces raisonnements pour les tours suivants, surtout lorsqu'ils expliquent une séquence d'outils. NVIDIA a corrigé un bug de réordonnancement et ajusté les stratégies de conservation du raisonnement pour s'assurer que les modèles ne perdent pas prématurément le contexte nécessaire aux agents, tout en respectant les politiques spécifiques à chaque modèle. L'architecture de streaming a été repensée pour une réactivité accrue. Désormais, les appels d'outils ne sont plus mis en tampon jusqu'à la fin du tour de génération. Dynamo émet désormais des événements de dispatch d'outils via un canal latéral synchronisé dès que la structure est parsemée. Cela permet aux applications clientes d'exécuter les outils immédiatement, sans attendre la fin du flux de texte, ce qui accélère considérablement le cycle de boucle de l'agent. La fidélité par rapport aux API existantes reste un pilier central. Des corrections ont été apportées pour garantir que les comptes de jetons soient exacts dès le début du flux et que les métadonnées des modèles soient correctement transmises. Un point critique concerne la compatibilité avec Codex : le comportement des agents dépend non seulement du schéma de requête HTTP, mais aussi des métadonnées de catalogue de modèles. Si une requête utilise un identifiant de modèle générique sans les profils de catalogue appropriés, des paramètres clés comme la limite de troncature des sorties d'outils ou la prise en charge du raisonnement peuvent être désactivés par défaut. Les tests sur des tâches de programmation ont révélé que l'utilisation de profils de catalogue corrects multiplie le nombre d'appels d'outils pertinents, améliorant ainsi la capacité de résolution de problèmes. Enfin, NVIDIA rend ces améliorations plus modulaires. Le protocole, les analyseurs et les couches de tokenisation sont désormais disponibles sous forme de crates autonomes et versionnées. Cela permet aux développeurs de construire des harnesses (interfaces d'exécution) personnalisées sans devoir intégrer l'intégralité de l'infrastructure interne de Dynamo. De nouvelles fonctionnalités telles que nvext.agent_hints permettent également de communiquer des intentions de performance spécifiques, comme la sensibilité à la latence, pour optimiser davantage les workflows à long terme. Ces avancées positionnent Dynamo comme une solution robuste pour les systèmes d'agents d'intelligence artificielle complexes et durables.
