Command Palette

Search for a command to run...

1 个月前

FDABench:面向异构数据上分析查询的数据Agent基准测试

Ziting Wang Shize Zhang Haitao Yuan Jinwei Zhu et al

FDABench:面向异构数据上分析查询的数据Agent基准测试

摘要

日益增长的数据驱动决策需求,催生了对能够整合结构化与非结构化数据以支持分析的数据代理(data agents)的迫切需求。尽管数据代理在帮助用户执行复杂分析任务方面展现出巨大潜力,但该领域仍面临三大关键挑战:其一,由于难以设计能够全面评估代理在多源分析任务中综合能力的测试用例,目前尚缺乏全面的数据代理基准;其二,构建融合结构化与非结构化数据的可靠测试用例成本高昂且技术复杂度极高;其三,现有基准测试在适应性和泛化能力方面表现有限,导致评估范围过于狭窄。为应对上述挑战,我们提出了 FDABench——首个专为多源数据分析场景下评估数据代理而设计的基准测试平台。我们的主要贡献包括:(i)构建了一个标准化的基准测试集,涵盖2,007个多样化的任务,覆盖不同数据源、领域、难度等级和任务类型,全面评估数据代理的性能表现;(ii)设计了一种代理-专家协作框架,确保在异构数据环境下高效、可靠地构建基准测试;(iii)赋予 FDABench 强大的跨不同目标系统与技术框架的泛化能力。我们利用 FDABench 对多种数据代理系统进行了评估,结果表明,各系统在响应质量、准确性、延迟和令牌(token)成本等方面均表现出各自独特的优势与局限性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供