HyperAIHyperAI

Command Palette

Search for a command to run...

常识推理任务的合理性:以温格拉德模式挑战和SWAG为例的研究

Paul Trichelair; Ali Emami; Adam Trischler; Kaheer Suleman; Jackie Chi Kit Cheung

摘要

近期的研究显著提升了在常识推理(CSR)基准测试如温格拉德模式挑战(Winograd Schema Challenge, WSC)和SWAG上的现有技术水平。本文探讨的问题是,这些基准测试上性能的提升是否真正代表了向具备常识能力的系统迈进的进步。我们对这两个基准测试进行了案例研究,并设计了协议,通过分析先前实验设计的有效性威胁来澄清和限定前人工作的结果。我们的协议考虑了常识基准测试中普遍存在的几个特性,包括规模限制、结构规律性和实例难度的变异性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供