
摘要
Winograd Schema(WS)被提出作为衡量模型常识能力的一种测试基准。近年来,基于预训练语言模型的方法在部分WS基准上显著提升了性能,但这种性能提升的来源仍不明确。本文指出,WS上看似取得的进步,未必真正反映了模型在常识推理能力上的提升。为支持这一观点,我们首先表明当前WS的评估方法存在不足,并提出一种改进方案:采用成对句子(twin sentences)进行评估。此外,我们提出了两个新的基线方法,揭示了现有WS基准中存在数据偏差(artifacts)的问题。随后,我们开发了一种在零样本(zero-shot)设置下评估WS类句子的方法,以衡量模型在预训练过程中所获得的常识推理能力。实验结果显示,在采用更严格的评估标准时,主流语言模型在该设置下的表现接近随机水平。因此,我们得出结论:当前观测到的性能提升主要源于训练WS模型时引入的监督信号,而这种监督机制并不足以有效支持所有必需的常识推理技能与知识。