16 天前

RESDSQL:面向文本到SQL的模式链接与骨架解析解耦方法

Haoyang Li, Jing Zhang, Cuiping Li, Hong Chen
RESDSQL:面向文本到SQL的模式链接与骨架解析解耦方法
摘要

近年来,文本到SQL(Text-to-SQL)任务中最具代表性的方法之一是基于预训练语言模型的方法。由于SQL查询具有特定的结构特性,传统的序列到序列(seq2seq)模型需同时承担解析模式项(即表名和列名)与查询骨架(即SQL关键字)的双重任务。这种耦合的目标设计显著增加了正确生成SQL查询的难度,尤其是在涉及大量模式项和复杂逻辑运算符的情况下。本文提出了一种增强排序的编码与骨架感知的解码框架,旨在解耦模式项链接与查询骨架解析过程。具体而言,针对seq2seq编码器-解码器模型,其编码器仅注入与当前查询最相关的模式项,而非全部无序的模式项,从而有效降低SQL解析过程中的模式链接负担;同时,解码器采用分步生成策略:先生成查询骨架,再生成完整的SQL语句,该机制能够隐式地约束SQL语法结构,提升生成准确性。我们在Spider数据集及其三个鲁棒性变体——Spider-DK、Spider-Syn和Spider-Realistic上对所提框架进行了评估。实验结果表明,该框架在性能与鲁棒性方面均表现出色。相关代码已开源,地址为:https://github.com/RUCKBReasoning/RESDSQL。