18일 전

RobBERT: 네덜란드어 RoBERTa 기반 언어 모델

Pieter Delobelle, Thomas Winters, Bettina Berendt
RobBERT: 네덜란드어 RoBERTa 기반 언어 모델
초록

최근 몇 년간 사전 훈련된 언어 모델은 자연어 처리 분야를 주도해왔으며, 다양한 복잡한 자연어 처리 과제에서 뛰어난 성능 향상을 가져왔다. 그 중에서도 가장 두드러진 사전 훈련된 언어 모델로는 BERT가 있으며, 영어 버전과 다국어 버전 모두 공개되었다. 다국어 BERT는 많은 과제에서 우수한 성능을 보이지만, 최근 연구들은 단일 언어로 훈련된 BERT 모델이 다국어 버전보다 훨씬 뛰어난 성능을 보임을 밝혀냈다. 이에 따라 네덜란드어를 대상으로 한 BERT 모델을 개발하는 것은 네덜란드어 자연어 처리 과제 전반에 걸쳐 큰 잠재력을 지닌다. 이전 연구들은 네덜란드어 BERT를 훈련하기 위해 초기 BERT 구현체를 사용했지만, 본 연구에서는 보다 강력하고 최적화된 BERT 아키텍처인 RoBERTa를 활용하여 네덜란드어를 위한 언어 모델인 RobBERT를 개발하였다. 다양한 과제에서 RobBERT의 성능을 측정하고, 미세 조정(fine-tuning) 데이터셋 크기의 중요성도 평가하였다. 또한 언어별 토크나이저의 중요성과 모델의 공정성(fairness)도 검토하였다. 그 결과, RobBERT는 다양한 과제에서 최신 기준(SOTA) 성능을 개선하였으며, 특히 작은 데이터셋을 다룰 때 다른 모델들보다 더욱 뚜렷한 성능 우위를 보였다. 이러한 결과는 RobBERT가 네덜란드어 자연어 처리 과제에 매우 강력한 사전 훈련된 모델임을 시사한다. 사전 훈련된 모델과 미세 조정된 모델은 모두 공개되어, 향후 네덜란드어 자연어 처리 응용 연구를 지원할 수 있도록 제공된다.