11 天前

回到原点：Winograd模式中的伪影检测、训练与常识解耦

Yanai Elazar, Hongming Zhang, Yoav Goldberg, Dan Roth

摘要

Winograd Schema（WS）被提出作为衡量模型常识能力的一种测试基准。近年来，基于预训练语言模型的方法在部分WS基准上显著提升了性能，但这种性能提升的来源仍不明确。本文指出，WS上看似取得的进步，未必真正反映了模型在常识推理能力上的提升。为支持这一观点，我们首先表明当前WS的评估方法存在不足，并提出一种改进方案：采用成对句子（twin sentences）进行评估。此外，我们提出了两个新的基线方法，揭示了现有WS基准中存在数据偏差（artifacts）的问题。随后，我们开发了一种在零样本（zero-shot）设置下评估WS类句子的方法，以衡量模型在预训练过程中所获得的常识推理能力。实验结果显示，在采用更严格的评估标准时，主流语言模型在该设置下的表现接近随机水平。因此，我们得出结论：当前观测到的性能提升主要源于训练WS模型时引入的监督信号，而这种监督机制并不足以有效支持所有必需的常识推理技能与知识。