11 天前

基于大语言模型的文本到SQL:基准评估

Dawei Gao, Haibin Wang, Yaliang Li, Xiuyu Sun, Yichen Qian, Bolin Ding, Jingren Zhou
基于大语言模型的文本到SQL:基准评估
摘要

大规模语言模型(LLMs)已成为文本到SQL(Text-to-SQL)任务的新范式。然而,由于缺乏系统性的评估基准,现有研究在设计高效、经济且有效的基于LLM的Text-to-SQL解决方案方面面临阻碍。为应对这一挑战,本文首先对现有的提示工程(prompt engineering)方法进行了系统且全面的比较,涵盖问题表示、示例选择与示例组织三个关键环节,并基于实验结果深入分析了各类方法的优缺点。在此基础上,我们提出一种全新的集成式解决方案——DAIL-SQL,该方法在Spider基准测试中取得了86.6%的执行准确率,刷新了该榜单的最新纪录,树立了新的性能标杆。为进一步探索开源大语言模型在Text-to-SQL任务中的潜力,我们系统考察了其在多种应用场景下的表现,并通过监督微调(supervised fine-tuning)进一步提升了模型性能。实验结果表明,开源LLM在Text-to-SQL任务中展现出巨大潜力,同时揭示了监督微调在提升性能方面的优势与局限性。此外,为实现高效且经济的基于LLM的Text-to-SQL解决方案,本文特别强调了提示工程中的令牌效率(token efficiency),并在此指标下对先前研究进行了系统性对比。我们希望本工作能够深化对LLM在Text-to-SQL任务中应用机制的理解,激发后续研究的深入探索,并推动该技术在更广泛场景中的落地应用。

基于大语言模型的文本到SQL:基准评估 | 最新论文 | HyperAI超神经