2달 전

WinoGrande: 대규모 적대적 윈그라드 스키마 도전

Keisuke Sakaguchi; Ronan Le Bras; Chandra Bhagavatula; Yejin Choi
WinoGrande: 대규모 적대적 윈그라드 스키마 도전
초록

Winograd 스키마 챌린지 (WSC) (Levesque, Davis, 및 Morgenstern 2011)는 통상적 추론을 평가하기 위한 기준으로, 선택적 선호도나 단어 연관성을 기반으로 하는 통계 모델이 해결할 수 없다고 설계된 273개의 전문가 제작 대명사 해석 문제 집합입니다. 그러나 최근 신경망 언어 모델의 발전으로 WSC 변형에서 약 90%의 정확도를 달성하였습니다. 이는 이러한 모델이 진정한 의미로 견고한 통상적 추론 능력을 획득하였는지, 아니면 데이터셋 내에 존재하는 허위 편향이 기계의 통상적 추론 능력을 과대평가하게 만드는지를 판단하는 중요한 질문을 제기합니다. 이 질문을 조사하기 위해, 우리는 원래 WSC 설계에서 영감을 받았지만, 데이터셋의 규모와 난이도를 개선하기 위해 조정된 44,000개 문제로 구성된 대규모 데이터셋인 WinoGrande를 소개합니다.데이터셋 구축의 주요 단계는 (1) 철저히 설계된 크라우드소싱 절차와 (2) 인간이 감지 가능한 단어 연관성을 기계가 감지 가능한 임베딩 연관성으로 일반화하는 새로운 AfLite 알고리즘을 사용한 체계적인 편향 감소를 포함합니다. WinoGrande에서 최고의 최신 방법은 훈련 데이터 양에 따라 다르지만, 인간 성능(94.0%)보다 15-35% 낮은 59.4-79.1%의 정확도를 달성하였습니다. 또한, WSC (90.1%), DPR (93.1%), COPA (90.6%), KnowRef (85.6%), Winogender (97.1%) 등 다섯 가지 관련 벤치마크에서 새로운 최신 결과를 설정하였습니다.이러한 결과는 두 가지 함의를 가지고 있습니다: 한편으로는 WinoGrande가 전이 학습 리소스로서 효과적임을 보여주며, 다른 한편으로는 이러한 모든 벤치마크에서 기계의 통상적 추론 능력을 과대평가하고 있을 가능성이 있음을 우려하게 합니다. 우리는 이러한 과대평가를 완화하기 위해 현재 및 미래 벤치마크에서 알고리즘적 편향 감소의 중요성을 강조합니다.

WinoGrande: 대규모 적대적 윈그라드 스키마 도전 | 최신 연구 논문 | HyperAI초신경