7 个月前

摘要

近期的研究显著提升了在常识推理（CSR）基准测试如温格拉德模式挑战（Winograd Schema Challenge, WSC）和SWAG上的现有技术水平。本文探讨的问题是，这些基准测试上性能的提升是否真正代表了向具备常识能力的系统迈进的进步。我们对这两个基准测试进行了案例研究，并设计了协议，通过分析先前实验设计的有效性威胁来澄清和限定前人工作的结果。我们的协议考虑了常识基准测试中普遍存在的几个特性，包括规模限制、结构规律性和实例难度的变异性。

源 PDF