
摘要
给定一个部分描述,如“她打开了汽车的引擎盖”,人类可以对这一情境进行推理并预测接下来可能发生的情况(“然后,她检查了发动机”)。在本文中,我们引入了基于情境的常识推理任务,将自然语言推理和常识推理统一起来。我们介绍了SWAG数据集,该数据集包含11.3万个关于丰富情境背景的多项选择题。为了解决许多现有数据集中常见的注释伪影和人类偏见问题,我们提出了一种新的方法——对抗过滤(Adversarial Filtering, AF),通过迭代训练一组风格分类器并使用它们来过滤数据,构建了一个无偏的数据集。为了应对激烈的对抗过滤,我们利用最先进的语言模型大规模生成了一组多样的潜在反事实情况。实证结果表明,虽然人类能够以高准确率(88%)解决这些推理问题,但各种竞争模型在我们的任务上表现不佳。我们提供了全面的分析,指出未来研究存在显著的机会。