11日前

リアルワールドにおけるText-to-SQL:Stack Exchangeデータに基づく自然発生型データセット

Moshe Hazoom, Vibhor Malik, Ben Bogin
リアルワールドにおけるText-to-SQL:Stack Exchangeデータに基づく自然発生型データセット
要約

現在利用可能な意味解析データセットの多くは、自然言語理解システムの訓練および評価を目的として、自然な発話と論理形式のペアとして収集されている。その結果、人間が自身が必要とするデータや興味を持つ事柄について尋ねるような、自然に発生する発話が持つ豊かさや多様性が一切含まれていない。本研究では、Stack Exchangeウェブサイトにおける実際の利用状況から収集された12,023件の発話とSQLクエリのペアから構成されるデータセット「SEDE」を公開する。本研究では、従来のどの意味解析データセットにもほとんど反映されていなかった、現実世界における多様な課題がこのデータセットに含まれていることを示し、部分的なクエリ句の比較に基づく評価指標を提案する。この指標は現実のクエリに適した評価を可能にする。さらに、強力なベースラインを用いた実験を行い、SEDEにおける性能と他の一般的なデータセットにおける性能との間に大きなギャップが存在することを明らかにした。

リアルワールドにおけるText-to-SQL:Stack Exchangeデータに基づく自然発生型データセット | 最新論文 | HyperAI超神経