17일 전
BERTje: 네덜란드어 BERT 모델
Wietse de Vries, Andreas van Cranenburgh, Arianna Bisazza, Tommaso Caselli, Gertjan van Noord, Malvina Nissim

초록
변환기 기반의 사전 훈련된 언어 모델인 BERT는 자연어 처리(NLP) 다양한 작업에서 최첨단 성능을 향상시키는 데 기여해 왔다. 동일한 아키텍처와 파라미터를 사용하여, 우리는 네덜란드어 전용 모델인 BERTje라는 단일 언어 기반 BERT 모델을 개발하고 평가하였다. 다국어 BERT 모델(네덜란드어를 포함하나 위키백과 텍스트 기반)과 비교하여, BERTje는 24억 토큰에 달하는 대규모이고 다양한 데이터셋을 기반으로 하고 있다. 하류 NLP 작업(품사 태깅, 명명된 실체 인식, 의미 역할 레이블링, 감성 분석)에서 BERTje는 크기가 동일한 다국어 BERT 모델보다 일관되게 뛰어난 성능을 보였다. 본 연구에서 사전 훈련된 네덜란드어 BERT 모델은 https://github.com/wietsedv/bertje 에서 공개되어 있다.