摘要

实际企业中的文本到SQL工作流程通常涉及复杂的云或本地数据，跨越多种数据库系统，包含各种方言的多个SQL查询，以及从数据转换到分析的多样化操作。我们介绍了Spider 2.0，这是一个评估框架，包含632个源自企业级数据库使用案例的真实世界文本到SQL工作流程问题。Spider 2.0中的数据库来源于真实的数据应用，通常包含超过1,000列，并存储在本地或云端的数据库系统中，如BigQuery和Snowflake。我们表明，解决Spider 2.0中的问题经常需要理解和搜索数据库元数据、方言文档，甚至项目级别的代码库。这一挑战要求模型能够与复杂的SQL工作环境进行交互，处理极其长的上下文，进行复杂的推理，并生成包含多样化操作的多个SQL查询，这些查询往往超过100行，远远超出了传统文本到SQL挑战的范围。我们的评估结果显示，在基于o1-preview的情况下，我们的代码代理框架仅成功解决了21.3%的任务，而相比之下，在Spider 1.0上为91.2%，在BIRD上为73.0%。我们在Spider 2.0上的结果表明，尽管语言模型在代码生成方面表现出色——尤其是在之前的文本到SQL基准测试中——但为了达到实际企业使用所需的性能水平，它们仍需显著改进。Spider 2.0上的进展代表了向开发适用于实际企业环境的智能、自主代码代理迈出的关键一步。我们的代码、基线模型和数据可在 https://spider2-sql.github.io 获取。

源 PDF