2달 전

일상적 추론 과제의 타당성: 윈그라드 스키마 도전과 SWAG에 대한 사례 연구

Paul Trichelair; Ali Emami; Adam Trischler; Kaheer Suleman; Jackie Chi Kit Cheung

초록

최근의 연구들은 윈그라드 스키마 챌린지(Winograd Schema Challenge, WSC)와 SWAG와 같은 상식 추론(Common-Sense Reasoning, CSR) 벤치마크에서 현존하는 최고 수준을 크게 개선하였습니다. 본 논문에서는 이러한 벤치마크에서의 성능 향상이 실제로 상식 기반 시스템으로의 진전을 의미하는지에 대해 질문합니다. 우리는 두 벤치마크에 대한 사례 연구를 수행하고, 이전 실험 설계의 타당성에 대한 위협을 분석하여 이전 연구 결과를 명확히 하고 자격을 부여하기 위한 프로토콜을 설계하였습니다. 우리의 프로토콜은 상식 벤치마크에서 일반적으로 발견되는 여러 특성을 고려하며, 이는 크기 제한, 구조적 규칙성, 그리고 인스턴스 난이도의 변동성을 포함합니다.