
要約
最近の強力な事前学習言語モデルは、読解のための人気のあるデータセットの多くで著しい性能を達成しています。今こそ、この分野の発展をより包括的なテキスト理解へと促進するために、より挑戦的なデータセットを導入する時です。本論文では、標準化された大学院入学試験から抽出した新しい読解データセット(ReClor)を紹介します。このデータセットは論理的推論を必要とします。先行研究によると、人間が注釈付けたデータセットにはしばしばバイアスが含まれており、モデルはテキストを真正に理解せずにこれらのバイアスを利用して高い精度を達成することがあります。ReClorにおけるモデルの論理的推論能力を包括的に評価するために、我々はバイアスのあるデータポイントを特定し、それらをEASYセットに分類し、残りのデータポイントをHARDセットに分類することを提案します。経験的結果は、最先端のモデルがデータセットに含まれるバイアスを高い精度で捉える優れた能力を持っていることを示していますが、HARDセットにおいてはランダムな予測に近い低い性能しか達成できず、現在のモデルの論理的推論能力の本質的な向上のためにさらなる研究が必要であることを示唆しています。