2 个月前
WinoGrande:大规模的对抗性温格拉德模式挑战
Keisuke Sakaguchi; Ronan Le Bras; Chandra Bhagavatula; Yejin Choi

摘要
温格拉德模式挑战(Winograd Schema Challenge, WSC)(Levesque, Davis 和 Morgenstern 2011)是一项常识推理的基准测试,包含273个由专家设计的代词消解问题,最初旨在无法被依赖选择偏好或词汇关联的统计模型解决。然而,最近神经语言模型的进步已经在WSC的不同变体上达到了约90%的准确率。这引发了一个重要问题:这些模型是否真正获得了稳健的常识能力,还是它们依赖于数据集中的虚假偏差,从而高估了机器常识的真实能力。为了探讨这一问题,我们引入了WinoGrande,这是一个受原始WSC设计启发的大规模数据集,包含44,000个问题,旨在提高数据集的规模和难度。数据集构建的关键步骤包括:(1) 精心设计的众包程序;(2) 使用一种新颖的AfLite算法系统地减少偏差,该算法将人类可检测的词汇关联推广到机器可检测的嵌入关联。在WinoGrande上表现最佳的现有方法达到了59.4%-79.1%的准确率,比人类表现(94.0%)低15-35%,具体取决于允许使用的训练数据量。此外,我们在五个相关基准测试中建立了新的最先进结果——WSC(90.1%)、DPR(93.1%)、COPA(90.6%)、KnowRef(85.6%)和Winogender(97.1%)。这些结果具有双重意义:一方面,它们展示了当WinoGrande作为迁移学习资源时的有效性;另一方面,它们引发了担忧,即我们可能在所有这些基准测试中都高估了机器常识的真实能力。我们强调,在现有的和未来的基准测试中进行算法偏差减少的重要性,以减轻这种高估现象。