HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Dynamo 支持流式 Token 与工具的多轮代理框架

NVIDIA 发布关于 Dynamo 推理引擎在多轮智能体交互支持上的最新技术进展。随着 Claude Code、Codex 等智能体客户端的普及,传统的推理服务在工具调用解析、思维链保留及流式传输方面面临巨大挑战。Dynamo 团队通过解决提示词缓存失效、思维链断裂及工具调用延迟等核心问题,显著提升了智能体工作流的性能与准确性。 针对提示词缓存失效,研究指出会话特定的计费头会破坏 KV 缓存的稳定性,导致每次请求都需重新生成提示,将首字生成时间(TTFT)增加了约 5 倍。Dynamo 通过移除这些不稳定头,成功恢复了稳定前缀的缓存复用,大幅降低了新会话的延迟。 在交互逻辑上,智能体回复常包含“思考”与“工具调用”交织的复杂结构。旧版引擎容易丢失思考片段或错误重组内容,导致智能体上下文缺失。Dynamo 现在通过独立的解析器严格保留每个思维片段与对应工具调用的关联,并支持流式实时传输。这意味着智能体无需等待整个响应生成,即可在生成工具调用时立即触发执行,极大提升了响应速度。 此外,团队完善了与 Anthropic 及 OpenAI 接口的兼容性。通过引入模型目录(Catalog)机制,确保自定义部署能正确识别模型元数据,如工具输出截断策略和推理模式设置,避免了因默认配置降级导致的智能体行为偏差。测试显示,匹配正确的目录配置后,智能体工具调用数量显著增加,任务完成质量更接近原生服务。未来,Dynamo 还将推出更多可复用的组件库及会话优先级控制功能,以支持更复杂、更长周期的智能体应用。

相关链接

NVIDIA Dynamo 支持流式 Token 与工具的多轮代理框架 | 热门资讯 | HyperAI超神经