
要約
多くの読解(Reading Comprehension)手法は、単一の文、段落、または文書を使用して回答できるクエリに限定されています。モデルが非連続的なテキスト証拠を組み合わせる能力を持つことで、機械読解手法の範囲が広がりますが、現在そのような能力を訓練およびテストするためのリソースは存在しません。私たちは、複数の文書にまたがるテキスト理解のためのモデル開発を促進し、既存手法の限界を探求することを目指した新しいタスクを提案します。当該タスクでは、モデルは証拠を探索し組み合わせること——つまりマルチホップ(別称:マルチステップ)推論を行うことを学びます。私たちは、クエリ-回答ペアとテーマ的に関連付けられた文書群からこのタスク用のデータセットを作成する方法論を開発しました。異なるドメインから2つのデータセットを生成し、潜在的な問題点を特定し対策戦略を考案しました。私たちは2つの競合する既存モデルを評価し、そのうち1つが複数の文書間で情報を統合できることを見出しました。しかし、両モデルとも関連情報を選択することが困難であり、関連性が保証された文書を提供することで性能が大幅に向上することがわかりました。これらのモデルはいくつかの強力なベースラインを超える結果を示していますが、最高精度は42.9%であり、人間の性能74.0%と比較すると改善の余地があります。