2 个月前

Spider 2.0:评估语言模型在现实世界企业文本到SQL工作流中的表现

Lei, Fangyu ; Chen, Jixuan ; Ye, Yuxiao ; Cao, Ruisheng ; Shin, Dongchan ; Su, Hongjin ; Suo, Zhaoqing ; Gao, Hongcheng ; Hu, Wenjing ; Yin, Pengcheng ; Zhong, Victor ; Xiong, Caiming ; Sun, Ruoxi ; Liu, Qian ; Wang, Sida ; Yu, Tao
Spider 2.0:评估语言模型在现实世界企业文本到SQL工作流中的表现
摘要

实际企业中的文本到SQL工作流程通常涉及复杂的云或本地数据,跨越多种数据库系统,包含各种方言的多个SQL查询,以及从数据转换到分析的多样化操作。我们介绍了Spider 2.0,这是一个评估框架,包含632个源自企业级数据库使用案例的真实世界文本到SQL工作流程问题。Spider 2.0中的数据库来源于真实的数据应用,通常包含超过1,000列,并存储在本地或云端的数据库系统中,如BigQuery和Snowflake。我们表明,解决Spider 2.0中的问题经常需要理解和搜索数据库元数据、方言文档,甚至项目级别的代码库。这一挑战要求模型能够与复杂的SQL工作环境进行交互,处理极其长的上下文,进行复杂的推理,并生成包含多样化操作的多个SQL查询,这些查询往往超过100行,远远超出了传统文本到SQL挑战的范围。我们的评估结果显示,在基于o1-preview的情况下,我们的代码代理框架仅成功解决了21.3%的任务,而相比之下,在Spider 1.0上为91.2%,在BIRD上为73.0%。我们在Spider 2.0上的结果表明,尽管语言模型在代码生成方面表现出色——尤其是在之前的文本到SQL基准测试中——但为了达到实际企业使用所需的性能水平,它们仍需显著改进。Spider 2.0上的进展代表了向开发适用于实际企业环境的智能、自主代码代理迈出的关键一步。我们的代码、基线模型和数据可在 https://spider2-sql.github.io 获取。