17日前

HybridQA:表形式およびテキストデータ上のマルチホップ質問応答のためのデータセット

Wenhu Chen, Hanwen Zha, Zhiyu Chen, Wenhan Xiong, Hong Wang, William Wang
HybridQA:表形式およびテキストデータ上のマルチホップ質問応答のためのデータセット
要約

既存の質問応答データセットは、主にテキスト情報または知識ベース(KB)/テーブル情報といった同質的な情報に限定して処理することに焦点を当てている。しかし、人間の知識は異種の形式に分散して存在するため、同質的な情報のみに依存する場合、深刻なカバレッジの問題が生じる可能性がある。この課題を解決するため、本研究では、異種情報の推論を必要とする新しい大規模な質問応答データセット「HybridQA」(https://github.com/wenhuchen/HybridQA)を提案する。各質問は、Wikipediaのテーブルと、そのテーブル内のエンティティとリンクされた複数の自由形式の文書コーパスと対応付けられている。質問は、表形式の情報とテキスト情報の両方を統合して回答する必要があるように設計されており、いずれかの情報形式が欠落すると質問は回答不能となる。本研究では、以下の3種類のモデルを評価した:1)テーブル情報のみを利用するモデル、2)テキスト情報のみを利用するモデル、3)異種情報を統合して答えを導出するハイブリッドモデル。実験の結果、2つのベースラインモデルのEMスコアは20%を下回ったのに対し、ハイブリッドモデルはEMスコア40%以上を達成した。このスコアの差は、HybridQAにおいて異種情報の統合が不可欠であることを示唆している。しかしながら、ハイブリッドモデルの性能は人間の水準にはまだ大きく及ばない。したがって、HybridQAは、異種情報に基づく質問応答の研究に向けた挑戦的なベンチマークとして機能するものである。

HybridQA:表形式およびテキストデータ上のマルチホップ質問応答のためのデータセット | 最新論文 | HyperAI超神経