
要約
自然言語による質問をSQLクエリに変換することを目的とするText-to-SQLタスクは、近年注目を集めている。Text-to-SQLにおける最も困難な課題の一つは、学習済みモデルを未観測のデータベーススキーマに一般化すること、すなわちクロスドメインText-to-SQLタスクへの適用である。この課題の鍵は、(i) 質問とデータベーススキーマをモデル化するための符号化手法の汎化性、および (ii) 質問内の単語とデータベーススキーマ内のテーブル・カラムとの間のマッピングを学習するための質問-スキーマリンク手法の汎化性にあり、これら二つの点に焦点を当てて、クロスドメインText-to-SQL向けに構造に配慮した二重グラフ集約ネットワーク(SADGA: Structure-Aware Dual Graph Aggregation Network)を提案する。SADGAでは、自然言語による質問とデータベーススキーマの両方に対して統一的な符号化モデルとしてグラフ構造を採用する。この統一的なモデリングに基づき、質問グラフとスキーマグラフ間のマッピングを学習するための構造に配慮した集約手法をさらに設計した。本手法の特徴は、グローバルグラフリンク、ローカルグラフリンク、および二重グラフ集約メカニズムの三つの構成要素に由来する。本手法の有効性を実証的に検証しただけでなく、執筆時点での挑戦的なText-to-SQLベンチマーク「Spider」において、3位の成績を達成した。