2 个月前

DROP:一个需要对段落进行离散推理的阅读理解基准测试

Dheeru Dua; Yizhong Wang; Pradeep Dasigi; Gabriel Stanovsky; Sameer Singh; Matt Gardner
DROP:一个需要对段落进行离散推理的阅读理解基准测试
摘要

阅读理解领域最近取得了快速进展,系统在最流行的阅读理解数据集上的表现已经与人类相当。然而,大量研究指出这些系统的脆弱性,表明仍有许多工作需要完成。我们引入了一个新的英语阅读理解基准测试——DROP(Discrete Reasoning Over Paragraphs),该测试要求对段落内容进行离散推理。在这个由众包创建且具有对抗性的包含96,000个问题的基准测试中,系统必须解析问题中的指代关系,可能涉及多个输入位置,并对它们执行离散操作(如加法、计数或排序)。这些操作需要对段落内容有比先前数据集所需更为全面的理解。我们在这一数据集上应用了来自阅读理解和语义分析领域的最新方法,并展示了最佳系统在我们的泛化准确率指标上仅达到32.7%的F1分数,而专家人类的表现为96.0%。此外,我们还提出了一种新模型,该模型结合了阅读理解方法和简单的数值推理,实现了47.0%的F1分数。