SQL-R1:通过强化学习训练自然语言到SQL推理模型
Peixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo
发布日期: 4/16/2025

摘要
自然语言到SQL(NL2SQL)通过将自然语言查询转换为结构化的SQL语句,实现了与数据库的直观交互。尽管在增强数据库应用中的人机交互方面已取得显著进展,但在涉及多表连接和嵌套查询的复杂场景中,推理性能仍面临重大挑战。当前的方法主要采用监督微调(SFT)来训练NL2SQL模型,这可能限制其在新环境(如金融和医疗保健领域)中的适应性和可解释性。为了提高NL2SQL模型在上述复杂情况下的推理性能,我们引入了SQL-R1,这是一种基于强化学习(RL)算法训练的新型NL2SQL推理模型。我们设计了一种专门针对NL2SQL任务的基于RL的奖励函数,并讨论了冷启动对密集训练效果的影响。此外,我们仅使用少量合成的NL2SQL数据进行增强训练,就达到了具有竞争力的准确率,并进一步探索了适用于RL的数据工程方法。在现有的实验中,SQL-R1仅使用7B基础模型,在基准测试Spider和BIRD上分别实现了88.6%和66.6%的执行准确率。