2달 전
RussianSuperGLUE: 러시아어 이해 평가 벤치마크
Tatiana Shavrina; Alena Fenogenova; Anton Emelyanov; Denis Shevelev; Ekaterina Artemova; Valentin Malykh; Vladislav Mikhailov; Maria Tikhonova; Andrey Chertok; Andrey Evlampiev

초록
본 논문에서는 고급 러시아 일반 언어 이해 평가 기준인 RussianGLUE를 소개합니다. 최근 유니버설 언어 모델과 트랜스포머 분야의 발전은 이러한 모델들의 포괄적인 진단 및 일반 지적 능력 테스트를 위한 방법론 개발을 요구하고 있습니다. 이는 자연어 추론 검출, 상식 추론, 텍스트 주제나 어휘와 무관하게 간단한 논리 연산 수행 능력을 포함합니다. 러시아어를 위해 처음으로 SuperGLUE 방법론과 유사하게 구성된 9개의 작업으로 이루어진 벤치마크가 개발되었습니다. 우리는 기준선, 인간 수준의 평가, 모델 평가를 위한 오픈 소스 프레임워크(https://github.com/RussianNLP/RussianSuperGLUE)를 제공하며, 러시아어에 대한 트랜스포머 모델의 전체 리더보드도 제시합니다. 또한, 다국어 모델이 적응된 진단 테스트 세트에서 비교된 첫 번째 결과를 발표하고, 언어에 관계없이 최신 모델을 독립적으로 확장하거나 평가하기 위한 첫 단계를 제안합니다.