
摘要
现实世界中的企业级数据智能工作流涵盖数据工程(Data Engineering, DE)与数据分析(Data Analysis, DA)两大环节:前者将原始数据源转化为可供分析的表格,后者则将这些表格转化为面向决策的洞察。为此,我们提出了DAComp——一个包含210项任务的基准测试集,全面模拟了上述复杂的工作流程。数据工程任务要求在工业级数据模式(schema)层面进行系统性工程构建,包括从零开始设计并实现多阶段SQL数据管道,以及在需求持续演进的背景下对现有系统进行迭代优化。数据分析任务则呈现开放式的业务问题,要求模型具备战略规划能力,通过迭代式编码开展探索性分析,对中间结果进行解读,并最终整合形成可执行的决策建议。在评估方式上,数据工程任务采用基于执行结果的多维度指标评估体系;而开放性任务则由经过实验验证的可靠大型语言模型(LLM-judge)进行评分,该评分机制依托于层级化、精心设计的评估细则,确保评判的客观性与一致性。我们的实验结果表明,即便是当前最先进的智能代理(agents),在DAComp基准上也表现不佳。尤其在数据工程任务中,成功率低于20%,暴露出企业在构建端到端数据流水线过程中存在的关键瓶颈——问题并非仅限于代码生成能力,更在于整体流程的协同与编排能力。而在数据分析任务上,平均得分也低于40%,反映出在开放性推理能力方面存在显著短板,进一步证明了数据工程与数据分析是两种本质不同的核心能力。通过清晰诊断上述局限性,DAComp为推动企业级自主数据智能代理的发展提供了一个严格且贴近现实的测试平台。我们已将全部数据与代码开源,访问地址为:https://da-comp.github.io