2ヶ月前

DROP: 段落に対する離散的な推論を必要とする読解ベンチマーク

Dheeru Dua; Yizhong Wang; Pradeep Dasigi; Gabriel Stanovsky; Sameer Singh; Matt Gardner
DROP: 段落に対する離散的な推論を必要とする読解ベンチマーク
要約

読解能力は最近急速に進歩しており、このタスクの最も人気のあるデータセットでシステムが人間と同等の性能を達成しています。しかし、多くの研究がこれらのシステムの脆弱性を指摘し、まだ解決すべき課題が多いことを示しています。私たちは新しい英語の読解ベンチマークであるDROP(Discrete Reasoning Over Paragraphs)を導入します。このクラウドソーシングで作成され、敵対的に生成された96,000問のベンチマークでは、システムは質問中の参照を解決する必要があり、それらに対して離散的な操作(加算、カウント、または並べ替えなど)を行う必要があります。これらの操作には、従来のデータセットで必要だったよりも包括的な段落内容の理解が必要です。我々はこのデータセットに対して、読解と意味解析に関する最先端の手法を適用し、最良のシステムでも一般化精度指標でのF1スコアが32.7%しか達成できていないことを示しました。一方、専門家の人的パフォーマンスは96.0%です。さらに、私たちは読解手法と単純な数値推論を組み合わせた新しいモデルを提示し、47.0%のF1スコアを達成しました。