7日前

CoSQL:データベースへのクロスドメイン自然言語インターフェースを指向した会話型テキストtoSQLチャレンジ

Tao Yu, Rui Zhang, He Yang Er, Suyi Li, Eric Xue, Bo Pang, Xi Victoria Lin, Yi Chern Tan, Tianze Shi, Zihan Li, Youxuan Jiang, Michihiro Yasunaga, Sungrok Shim, Tao Chen, Alexander Fabbri, Zifan Li, Luyao Chen, Yuwen Zhang, Shreya Dixit, Vincent Zhang, Caiming Xiong, Richard Socher, Walter S Lasecki, Dragomir Radev
CoSQL:データベースへのクロスドメイン自然言語インターフェースを指向した会話型テキストtoSQLチャレンジ
要約

我々は、跨ドメインかつ汎用的なデータベース(DB)問い合わせ対話システムの構築を目的として、CoSQLというコーパスを提示する。このコーパスは、138のドメインにまたがる200の複雑なデータベースを対象とした、3,000件の対話から構成されるWizard-of-Oz(WOZ)収集データから得られたもので、30,000以上の対話ターンおよび10,000以上のアノテート済みSQLクエリを含んでいる。各対話は、クラウドワーカーがユーザーとしてデータベースを探索し、SQL専門家がSQLを用いて回答を取得し、曖昧な質問を明確化する、あるいは回答不可能な質問についてその旨を伝えるという、現実世界のDB問い合わせシナリオを模擬している。ユーザーの質問がSQLで回答可能な場合、専門家はSQLの内容と実行結果をユーザーに説明することで、自然な対話フローを維持している。CoSQLは、既存のタスク指向対話データセットと比較して、以下の新たな課題を提示している:(1)対話状態がドメイン依存のスロット・バリューペアではなく、ドメインに依存しない実行可能な表現であるSQLに根ざしている点、(2)テストが未知のデータベース上で行われるため、新しいドメインへの一般化が成功の鍵となる点。CoSQLには、3つのタスクが含まれている:SQLに基づく対話状態追跡、クエリ結果からの応答生成、ユーザーの対話行動予測。各タスクについて強力なベースラインを評価し、CoSQLが今後の研究にとって大きな挑戦を提供することを示した。データセット、ベースライン、リーダーボードは、https://yale-lily.github.io/cosql にて公開される予定である。

CoSQL:データベースへのクロスドメイン自然言語インターフェースを指向した会話型テキストtoSQLチャレンジ | 最新論文 | HyperAI超神経