15日前
TORQUE:時系列順序に関する読解問題のデータセット
Qiang Ning, Hao Wu, Rujun Han, Nanyun Peng, Matt Gardner, Dan Roth

要約
読解の重要な要素の一つは、文章中に記述された出来事間の時間的関係を、それが明示的に述べられていない場合でも理解できる能力である。しかし、現在の機械読解評価ベンチマークでは、時間的現象を問う問題が実質的に存在しないため、これらのベンチマークで学習されたシステムは、「[ある出来事]の前後に何が起きたか?」といった質問に答える能力を有していない。本研究では、3,200件のニューススニペットと、21,000件の人間が生成した時間的関係を問う質問をもとに構築された新しい英語読解ベンチマーク「TORQUE」を紹介する。実験結果によると、RoBERTa-largeはTORQUEのテストセットにおいて正確一致スコア(exact-match score)51%を達成したが、人間の性能と比べて約30%の差がある。