
摘要
我们提出了SCDE数据集,用于通过句子预测任务评估计算模型的性能。SCDE是一个由人工构建的句子完形填空数据集,其语料来源于公开的中小学英语考试题目。本任务要求模型从一个共享的候选词集合中,为一段文本中的多个空白处填入合适的词语,其中干扰项由英语教师精心设计。实验结果表明,该任务不仅需要利用超出当前句子邻域的非局部、语篇层面的上下文信息,而且各空白之间存在显著的相互依赖关系,彼此之间会严重干扰对方的语境理解。此外,通过消融实验我们证明,这些干扰项具有较高的质量,显著提升了任务难度。实验结果还显示,当前先进模型的平均表现(72%)与人类水平(87%)之间存在显著差距,这为未来模型的改进提供了明确方向,激励研究者进一步缩小这一性能鸿沟。