2달 전
RuCoLA: 러시아 언어 적합성 말뭉치
Vladislav Mikhailov; Tatiana Shamardina; Max Ryabinin; Alena Pestova; Ivan Smurov; Ekaterina Artemova

초록
언어 적합성(LA, Linguistic Acceptability)은 언어 모델의 문법 지식을 테스트하고 적합성 분류기를 사용하여 비현실적인 텍스트를 필터링하는 등 다양한 용도로 인해 연구 커뮤니티의 주목을 받고 있습니다. 그러나 영어 외의 언어에서 LA의 적용 범위는 고품질 자원 부족으로 제한되어 있습니다. 이에 우리는 잘 확립된 이진 LA 접근 방식에 따라 처음부터 구축된 러시아 언어 적합성 코퍼스(RuCoLA, Russian Corpus of Linguistic Acceptability)를 소개합니다. RuCoLA는 언어학 저널에서 추출한 9,800개의 영역 내 문장과 생성 모델이 생성한 3,600개의 영역 외 문장으로 구성됩니다. 영역 외 집합은 적합성을 활용하여 언어 생성을 개선하는 실제 사용을 돕기 위해 만들어졌습니다. 본 논문에서는 데이터 수집 프로토콜을 설명하고 다양한 기준 접근 방식을 사용한 적합성 분류 실험에 대한 세부 분석 결과를 제시합니다. 특히, 가장 널리 사용되는 언어 모델들이 여전히 인간보다 크게 뒤떨어짐을 보여주며, 특히 형태론적 및 의미론적 오류를 감지할 때 더욱 그렇습니다. 우리는 RuCoLA, 실험 코드, 그리고 러시아어 언어 모델의 언어 능력을 평가하기 위한 공용 리더보드(rucola-benchmark.com)를 공개합니다.