HyperAIHyperAI

Command Palette

Search for a command to run...

2 个月前
LLM
Agent
基准

NVIDIA AI-Q 登顶 DeepResearch Bench I 和 II 榜首

英伟达 AI-Q 深度研究智能体在 DeepResearch Bench 及 Bench II 两项权威评测中均夺得榜首,分别以 55.95 分和 54.50 分的成绩领先。这一成就标志着开源、可移植的深度研究技术取得重大突破,证明了开发者可定制化的模型与工具链足以构建行业领先的智能研究系统。 AI-Q 的核心优势在于其完全开放、模块化且可配置的架构。企业可拥有、检查并针对特定场景定制该蓝图。该智能体采用多智能体架构,由编排器、规划者和研究者三部分组成,并基于英伟达 NeMo Agent Toolkit 构建,微调后的 Nemotron 3 Super 模型作为核心驱动。其中,编排器负责协调研究全流程,规划者通过初步调研映射信息 landscape 并制定证据支撑的研究计划,研究者则调度多个具备不同分析视角的专家子智能体并行工作,最终综合生成高质量报告。 为提升报告的准确性与完整性,系统引入了可选的集成层和报告精修模块。集成层并行运行多个独立研究管线并合并输出,显著提升信息覆盖率;精修模块则通过自监督元学习生成的指令,对报告进行去噪、量化模糊主张及增强因果推理。此外,系统采用自定义中间件处理长程任务中的复杂错误,确保多步骤推理的稳定性。 此次获奖的关键因素包括:基于英伟达 NeMo 和 LangChain 开发的多智能体协作机制、针对 6.7 万条轨迹数据微调的 Nemotron 3 大模型,以及支持全组件灵活配置的 YAML 接口。该方案不仅实现了状态最优的研究能力,同时保持了极高的透明度与控制力。英伟达将于 2026 年 3 月在 GTC 大会上进一步展示相关技术细节,推动企业级 AI 研究应用的普及。

相关链接