16 天前

DIN-SQL：基于自校正的文本到SQL分解式上下文学习

Mohammadreza Pourreza, Davood Rafiei

摘要

在文本到SQL（text-to-SQL）这一具有挑战性的任务上，基于Spider等数据集的评估表明，当前微调模型与提示（prompting）方法在大型语言模型（LLMs）上的性能之间仍存在显著差距。为提升LLMs在推理过程中的表现，我们研究了将复杂任务分解为更小子任务的有效性。具体而言，我们证明：将生成问题分解为若干子问题，并将这些子问题的求解结果作为输入反馈给LLMs，是一种能够显著提升其性能的高效策略。在三种不同LLMs上的实验结果表明，该方法可使模型的简单少样本（few-shot）性能平均提升约10%，并使其准确率逼近或超越当前最优水平（SOTA）。在Spider数据集的保留测试集上，此前的SOTA执行准确率为79.9%，而本文所提出方法在撰写时达到的新SOTA为85.3。此外，该基于上下文学习（in-context learning）的方法在性能上超越了大量经过深度微调的模型，提升幅度至少达5%。在BIRD基准测试中，该方法亦取得了55.9%的执行准确率，刷新了该基准测试集上的SOTA记录。