9일 전

TAPE: 소수 샘플 러시아어 이해 능력 평가

Ekaterina Taktasheva, Tatiana Shavrina, Alena Fenogenova, Denis Shevelev, Nadezhda Katricheva, Maria Tikhonova, Albina Akhmetgareeva, Oleg Zinkevich, Anastasiia Bashmakova, Svetlana Iordanskaia, Alena Spiridonova, Valentina Kurenshchikova, Ekaterina Artemova, Vladislav Mikhailov
TAPE: 소수 샘플 러시아어 이해 능력 평가
초록

최근 제로샷 및 희소 샷 학습 분야의 발전은 다양한 연구 및 실용적 목적에 있어 희망을 보여주고 있다. 그러나 이 빠르게 성장하는 분야는 영어 외 언어에 대한 표준화된 평가 세트가 부족하여, 영어 중심의 패러다임을 벗어난 진전을 방해하고 있다. 이러한 연구 방향을 해결하기 위해, 우리는 러시아어를 대상으로 한 다중 스텝 추론, 윤리적 개념, 논리 및 보편지식을 포함하는 여섯 가지 더 복잡한 자연어 이해(NLU) 과제를 수용하는 새로운 벤치마크인 TAPE(Text Attack and Perturbation Evaluation)를 제안한다. TAPE의 설계는 체계적인 제로샷 및 희소 샷 NLU 평가에 중점을 두며, (i) 언어학적 관점에서의 적대적 공격 및 변형을 통한 강건성 분석과 (ii) 세부 인구집단(subpopulations)을 통한 미묘한 해석이 가능하도록 구성되어 있다. 자동회귀 기반 모델에 대한 심층적 분석 결과, 단순한 철자 기반 변형이 성능에 가장 큰 영향을 미치는 반면, 입력 문장을 재표현하는 방식은 상대적으로 미미한 영향을 미친다. 동시에, 대부분의 과제에서 신경망 기반 모델과 인간 기반 모델 간에 상당한 성능 격차가 존재함이 확인되었다. 본 연구는 TAPE를 공개적으로 배포( tape-benchmark.com )함으로써, 적은 또는 전혀 supervision이 없는 상황에서도 새로운 과제로 일반화할 수 있는 강건한 언어 모델에 대한 연구를 촉진하고자 한다.