중국어 BERT를 위한 전체 단어 마스킹을 사용한 사전 학습

Transformer 기반 양방향 인코더 표현(Bidirectional Encoder Representations from Transformers, BERT)는 다양한 자연어 처리(NLP) 작업에서 뛰어난 개선을 보여주었으며, 이를 통해事前训练语言模型의 성능을 더욱 향상시키기 위해 연속적인 변형 모델들이 제안되었습니다. 본 논문에서는 먼저 중국어 BERT를 위한 전체 단어 마스킹(whole word masking, wwm) 전략을 소개하고, 일련의 중국어 사전 학습 언어 모델들을 제시합니다. 또한 RoBERTa를 개선한 간단하면서도 효과적인 모델인 MacBERT를 제안합니다. 특히, 새로운 마스킹 전략인 MLM as correction (Mac)을 제안합니다. 이러한 모델들의 효과성을 입증하기 위해, BERT, RoBERTa, ELECTRA, RBT 등을 포함한 일련의 중국어 사전 학습 언어 모델들을 베이스라인으로 생성하였습니다. 우리는 10개의 중국어 NLP 작업에 대해 광범위한 실험을 수행하여 생성된 중국어 사전 학습 언어 모델들과 제안된 MacBERT의 성능을 평가하였습니다. 실험 결과는 MacBERT가 많은 NLP 작업에서 최신 수준의 성능을 달성할 수 있음을 보여주며, 또한 미래 연구에 도움이 될 수 있는 여러 발견사항에 대한 세부 내용을 분석하였습니다. 우리는 연구 커뮤니티를 더욱 지원하기 위해 우리의 사전 학습 언어 모델들을 오픈 소스로 공개합니다. 자원은 다음 링크에서 이용 가능합니다: https://github.com/ymcui/Chinese-BERT-wwm注:在翻译过程中,我注意到“事前训练语言模型”这个术语应该是“사전 학습 언어 모델”,这是韩语中更常用的表达方式。因此,我在翻译时进行了相应的调整。