HyperAIHyperAI

Command Palette

Search for a command to run...

LLM 能否作为数据库接口?面向大规模数据库文本到 SQL 转换的基准测试

摘要

文本到SQL解析(Text-to-SQL)旨在将自然语言指令转换为可执行的SQL语句,近年来受到广泛关注。特别是Codex和ChatGPT在该任务中展现出令人瞩目的性能。然而,当前主流基准测试(如Spider和WikiSQL)主要聚焦于包含少量数据行的数据库模式,导致学术研究与真实应用场景之间存在显著差距。为缓解这一问题,我们提出了BIRD——一个面向大规模数据库的文本到SQL任务大型基准数据集,包含12,751对文本到SQL的数据样本,涵盖95个数据库,总数据量达33.4 GB,覆盖37个专业领域。BIRD强调数据库实际值(database values)的重要性,揭示了在大规模数据库背景下所面临的新挑战,包括脏数据(dirty database contents)、自然语言问题与数据库内容之间的外部知识关联,以及SQL语句的执行效率问题。为应对这些挑战,文本到SQL模型不仅需要具备语义解析能力,还必须具备对数据库具体值的理解能力。实验结果表明,数据库值在生成适用于大型数据库的准确SQL语句中具有关键作用。此外,即便是在当前表现最优的文本到SQL模型(如ChatGPT)中,其执行准确率也仅为40.08%,远低于人类水平的92.96%,充分说明该领域仍面临严峻挑战。与此同时,我们还进行了效率分析,旨在为生成高效SQL语句提供实践洞见,助力工业界应用落地。我们相信,BIRD将有力推动文本到SQL研究在真实世界中的应用发展。相关排行榜与源代码已公开:https://bird-bench.github.io/


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供