17일 전
RobeCzech: 체코어 RoBERTa, 단일 언어 기반의 문맥화된 언어 표현 모델
Milan Straka, Jakub Náplava, Jana Straková, David Samuel

초록
우리는 체코어 데이터를 기반으로 훈련된 단일 언어 RoBERTa 언어 표현 모델인 RobeCzech을 제안한다. RoBERTa는 트랜스포머 기반의 사전 훈련 방식으로, 강력하게 최적화된 접근법이다. 본 연구에서는 RobeCzech가 동일한 크기의 다언어 및 체코어 전용 컨텍스트 기반 언어 표현 모델보다 상당히 뛰어난 성능을 보이며, 평가된 다섯 가지 자연어 처리(NLP) 과제에서 현재 최고 성능을 기록하고 있으며, 그 중 네 가지 과제에서는 최신 기준 수준의 결과를 달성함을 보여준다. RobeCzech 모델은 공개적으로 다음 두 곳에서 제공된다: https://hdl.handle.net/11234/1-3691 및 https://huggingface.co/ufal/robeczech-base.