11日前

KaggleDBQA：Text-to-SQLパーサーの現実的な評価

Chia-Hsuan Lee, Oleksandr Polozov, Matthew Richardson

要約

データベース質問応答の目的は、多様な応用分野における現実のリレーショナルデータベースに対して自然言語によるクエリを可能にすることである。近年、SpiderやWikiSQLといった大規模なデータセットが、テキストからSQLへのパースを目的とした新しいモデリング手法の発展を促進し、未確認のデータベースへのゼロショット一般化性能を向上させた。本研究では、これらの手法が実用的導入を阻む課題に着目する。まず、ドメイン固有のデータ型、オリジナルのフォーマット、制約のない質問を備えた実際のWebデータベースを対象とする、新たなクロスドメイン評価データセット「KaggleDBQA」を提案する。次に、実際の現場におけるテキストからSQLへのパーサー評価タスクの選定について再検討を行う。最後に、ドメイン内評価タスクに、自然に存在する暗黙のドメイン知識の源であるデータベースドキュメンテーションを追加する。本研究では、KaggleDBQAが最先端のゼロショットパーサーにとって挑戦となることを示す一方で、より現実的な評価環境の構築と関連するデータベースドキュメンテーションの創造的な活用により、パーサーの精度が13.2%以上向上し、性能が倍増することを実証した。