16日前

RESDSQL:Text-to-SQLにおけるスキーマリンクの分離とスケルトン解析

Haoyang Li, Jing Zhang, Cuiping Li, Hong Chen
RESDSQL:Text-to-SQLにおけるスキーマリンクの分離とスケルトン解析
要約

近年におけるText-to-SQLの優れたアプローチの一つとして、事前学習された言語モデルが挙げられる。SQLクエリの構造的特性から、seq2seqモデルはスキーマ項目(すなわちテーブルやカラム)とスケルトン(すなわちSQLキーワード)の両方を解析する責任を負う。このような結合されたターゲットは、多くのスキーマ項目や論理演算子を含む場合に、正しいSQLクエリの解析を困難にする。本論文では、スキーマリンクとスケルトン解析を分離する「ランク付け強化型エンコーディング」と「スケルトン認識型デコーディング」のフレームワークを提案する。具体的には、seq2seqエンコーダ・デコーダモデルにおいて、エンコーダに全スキーマ項目を無順序で入力するのではなく、最も関連性の高いスキーマ項目のみを注入することで、SQL解析過程におけるスキーマリンクの負荷を軽減する。また、デコーダはまずスケルトンを生成し、その後に実際のSQLクエリを生成する構成とすることで、SQL解析を間接的に制約する。本研究では、Spiderおよびその3つのロバストネスバリエーション(Spider-DK、Spider-Syn、Spider-Realistic)を用いて実験評価を行った。実験結果から、本フレームワークが優れた性能とロバスト性を示すことが明らかになった。実装コードは、https://github.com/RUCKBReasoning/RESDSQL にて公開されている。