Command Palette
Search for a command to run...

摘要
大型语言模型(LLMs)的迅猛发展催生了“数据智能体”(data agents)的兴起——这类自主系统旨在协调“数据+人工智能”生态系统,以应对复杂的数据相关任务。然而,当前“数据智能体”这一术语存在术语定义模糊和使用不一致的问题,将简单的查询应答系统与复杂的自主架构混为一谈。这种术语上的模糊性导致用户期望错配、责任归属困难,并制约了产业的健康发展。受自动驾驶分级标准SAE J3016的启发,本综述首次提出了一套系统化的分层分类体系,用于界定数据智能体的自主性水平,共分为六个层级,从人工操作(L0)逐步演进至生成式、完全自主的数据智能体(L5),从而清晰界定能力边界与责任分配。基于这一框架,我们对现有研究进行了结构化梳理,按自主性由低到高进行组织,涵盖专用于数据管理、数据准备与数据分析的各类数据智能体,同时介绍面向多功能、综合性系统、具备更高自主性的新兴研究方向。我们进一步分析了推动数据智能体演进的关键跃迁点与核心技术瓶颈,尤其聚焦于L2到L3的过渡阶段——在此阶段,数据智能体正从程序化执行向自主编排能力跃升。最后,我们提出一份面向未来的发展路线图,展望主动式、生成式数据智能体的全面到来。