HyperAIHyperAI

Command Palette

Search for a command to run...

回到原点:Winograd模式中的伪影检测、训练与常识解耦

Yanai Elazar Hongming Zhang Yoav Goldberg Dan Roth

摘要

Winograd Schema(WS)被提出作为衡量模型常识能力的一种测试基准。近年来,基于预训练语言模型的方法在部分WS基准上显著提升了性能,但这种性能提升的来源仍不明确。本文指出,WS上看似取得的进步,未必真正反映了模型在常识推理能力上的提升。为支持这一观点,我们首先表明当前WS的评估方法存在不足,并提出一种改进方案:采用成对句子(twin sentences)进行评估。此外,我们提出了两个新的基线方法,揭示了现有WS基准中存在数据偏差(artifacts)的问题。随后,我们开发了一种在零样本(zero-shot)设置下评估WS类句子的方法,以衡量模型在预训练过程中所获得的常识推理能力。实验结果显示,在采用更严格的评估标准时,主流语言模型在该设置下的表现接近随机水平。因此,我们得出结论:当前观测到的性能提升主要源于训练WS模型时引入的监督信号,而这种监督机制并不足以有效支持所有必需的常识推理技能与知识。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供