
초록
아랍어는 문법적으로 풍부한 언어이지만 영어에 비해 자원이 상대적으로 적고, 문법 구조에 대한 탐색이 덜 이루어진 언어이다. 이러한 제약 요소를 고려할 때, 감성 분석(SA), 명명된 실체 인식(NER), 질문 응답(QA)과 같은 아랍어 자연어 처리(NLP) 과제는 매우 도전적인 과제로 여겨져 왔다. 최근 트랜스포머 기반 모델의 급격한 성장과 함께, 특정 언어에 특화된 BERT 기반 모델들이 매우 큰 규모의 텍스트 코퍼스에서 사전 학습을 거치면 언어 이해 능력에서 매우 뛰어난 성능을 발휘함을 입증하였다. 이러한 모델들은 대부분의 NLP 과제에서 새로운 기준을 설정하고 최첨단 성과를 달성하고 있다. 본 논문에서는 영어에 대해 BERT가 성공을 거둔 것과 동일한 성과를 아랍어 언어 처리 분야에서도 달성하고자, 아랍어 전용으로 사전 학습된 BERT 모델인 AraBERT를 개발하였다. AraBERT의 성능은 구글에서 개발한 다국어 BERT 및 기타 최첨단 접근 방식과 비교되어 평가되었으며, 실험 결과 새로 개발된 AraBERT가 대부분의 테스트된 아랍어 NLP 과제에서 최첨단 성능을 달성함을 확인하였다. 사전 학습된 AraBERT 모델은 https://github.com/aub-mind/arabert 에 공개되어 있으며, 아랍어 NLP 분야의 연구 및 응용을 촉진하고자 하는 목적을 가지고 있다.