
摘要
阅读能力的一个关键方面是理解文本中事件之间的时序关系,即使这些关系并未被明确陈述。然而,当前的机器阅读理解评估基准几乎不包含测试时序现象的问题,导致基于这些基准训练的系统无法回答诸如“[某个事件]之前/之后发生了什么?”之类的问题。为此,我们提出了TORQUE,一个基于3200条新闻片段、包含21000个由人工生成的、聚焦时序关系的阅读理解问题的新英语阅读理解基准。实验结果表明,RoBERTa-large在TORQUE测试集上的准确匹配得分仅为51%,相比人类表现仍落后约30个百分点。
阅读能力的一个关键方面是理解文本中事件之间的时序关系,即使这些关系并未被明确陈述。然而,当前的机器阅读理解评估基准几乎不包含测试时序现象的问题,导致基于这些基准训练的系统无法回答诸如“[某个事件]之前/之后发生了什么?”之类的问题。为此,我们提出了TORQUE,一个基于3200条新闻片段、包含21000个由人工生成的、聚焦时序关系的阅读理解问题的新英语阅读理解基准。实验结果表明,RoBERTa-large在TORQUE测试集上的准确匹配得分仅为51%,相比人类表现仍落后约30个百分点。