
要約
我々は、BERTベースのモデルを用いてテキストからSQLを生成する問題(text-to-SQL問題)を解決するためのシンプルな手法を提案する。本手法の基本的な観察として、質問文に含まれる一部の語とテーブル内のコンテンツが一致する場合があること、また、テーブルのヘッダー項目の一部も質問文内の語と一致する場合があることにある。この現象を活用し、深層学習モデルに追加の特徴ベクトル2つをエンコードする。また、訓練時とテスト時においてテーブルの内容がほぼ同一であるという性質を活かし、モデルの推論効率も向上する。提案手法はWikiSQLデータセット上で評価され、BERTベースのベースラインに対して論理形式精度(logic form accuracy)および実行精度(execution accuracy)の両面で3.7%の向上を達成し、現在の最先端(state-of-the-art)性能を実現した。