HyperAIHyperAI

Command Palette

Search for a command to run...

构建数据科学家思维智能体:复用工具生成登顶 DABStep 榜首

NVIDIA KGMON(NeMo Agent Toolkit)团队推出的数据探索Agent(Data Explorer)在数据智能处理领域取得重大突破,在多步推理数据Agent基准测试(DABStep)中荣登榜首。该工具专为解决文本互联网中稀缺的定量结构化数据难题而生,旨在模拟资深数据科学家的工作流,实现自动化的探索性数据分析、表格问答及预测建模。 面对需要复杂多步查询的表格数据,传统依赖网络搜索的Agent往往失效。Data Explorer 采用独特的三阶段架构:首先通过“学习阶段”,利用大模型批量处理样本任务,提炼并封装通用函数库(helper.py),将分散的代码逻辑整合为可复用的模块化模块,遵循“一次编写,到处运行”的高效原则;其次是“推理阶段”,部署轻量级快速模型,直接调用预生成的函数库处理新任务,无需重新生成底层逻辑,极大降低了延迟与Token消耗;最后是“离线反思阶段”,通过大模型对过往任务进行无监督审核与一致性分析,将经验反馈至系统提示词,持续优化推理准确率,且不影响在线速度。 实测数据显示,该方法在 DABStep 基准测试中取得惊人成绩。在处理高难度的多步推理任务时,Data Explorer 准确率高达 89.95%,远超使用重型模型的竞品(如 Claude Code 的 66.93% 和 Google AI 的 45.24%)。同时,其单任务耗时仅为 20 秒,代码生成长度缩短至 1870 字符,相比传统从头编写代码的方式提升了 30 倍效率。这一成果证明了将基础知识构建与快速推理分离的策略,能有效让轻量级模型在复杂数据分析中超越重型模型,为数据密集型研究树立了新范式。目前,NVIDIA 已开放相关工具供开发者构建自定义数据探索Agent。

相关链接

构建数据科学家思维智能体:复用工具生成登顶 DABStep 榜首 | 热门资讯 | HyperAI超神经