11 天前
LLM 能否作为数据库接口?面向大规模数据库文本到 SQL 转换的基准测试
Jinyang Li, Binyuan Hui, Ge Qu, Jiaxi Yang, Binhua Li, Bowen Li, Bailin Wang, Bowen Qin, Rongyu Cao, Ruiying Geng, Nan Huo, Xuanhe Zhou, Chenhao Ma, Guoliang Li, Kevin C.C. Chang, Fei Huang, Reynold Cheng, Yongbin Li

摘要
文本到SQL解析(Text-to-SQL)旨在将自然语言指令转换为可执行的SQL语句,近年来受到广泛关注。特别是Codex和ChatGPT在该任务中展现出令人瞩目的性能。然而,当前主流基准测试(如Spider和WikiSQL)主要聚焦于包含少量数据行的数据库模式,导致学术研究与真实应用场景之间存在显著差距。为缓解这一问题,我们提出了BIRD——一个面向大规模数据库的文本到SQL任务大型基准数据集,包含12,751对文本到SQL的数据样本,涵盖95个数据库,总数据量达33.4 GB,覆盖37个专业领域。BIRD强调数据库实际值(database values)的重要性,揭示了在大规模数据库背景下所面临的新挑战,包括脏数据(dirty database contents)、自然语言问题与数据库内容之间的外部知识关联,以及SQL语句的执行效率问题。为应对这些挑战,文本到SQL模型不仅需要具备语义解析能力,还必须具备对数据库具体值的理解能力。实验结果表明,数据库值在生成适用于大型数据库的准确SQL语句中具有关键作用。此外,即便是在当前表现最优的文本到SQL模型(如ChatGPT)中,其执行准确率也仅为40.08%,远低于人类水平的92.96%,充分说明该领域仍面临严峻挑战。与此同时,我们还进行了效率分析,旨在为生成高效SQL语句提供实践洞见,助力工业界应用落地。我们相信,BIRD将有力推动文本到SQL研究在真实世界中的应用发展。相关排行榜与源代码已公开:https://bird-bench.github.io/。