2달 전

중국어 자연어 처리를 위한 사전 학습 모델 재검토

Yiming Cui; Wanxiang Che; Ting Liu; Bing Qin; Shijin Wang; Guoping Hu
중국어 자연어 처리를 위한 사전 학습 모델 재검토
초록

트랜스포머 기반 양방향 인코더 표현(Bidirectional Encoder Representations from Transformers, BERT)은 다양한 자연어 처리(NLP) 작업에서 뛰어난 개선을 보여주었으며, 이를 바탕으로 사전 훈련된 언어 모델의 성능을 더욱 향상시키기 위한 연속적인 변형 모델들이 제안되었습니다. 본 논문에서는 중국어 사전 훈련된 언어 모델들의 효과성을 비영어 언어에서 재검토하고, 이 모델 시리즈를 커뮤니티에 공개하는 것을 목표로 합니다. 또한, RoBERTa를 기반으로 여러 방면에서 개선된 단순하면서도 효과적인 모델인 MacBERT를 제안합니다. 특히, MacBERT는 MLM(Masked Language Model)을 교정(Correction)으로 채택한 마스킹 전략에서 개선점을 보입니다. 우리는 8개의 중국어 NLP 작업에 대해 광범위한 실험을 수행하여 기존의 사전 훈련된 언어 모델들과 제안된 MacBERT를 재검토하였습니다. 실험 결과, MacBERT가 많은 NLP 작업에서 최신 수준의 성능을 달성할 수 있음을 확인하였으며, 미래 연구에 도움이 될 수 있는 몇 가지 발견사항을 상세히 분석하였습니다.자료 제공: https://github.com/ymcui/MacBERT

중국어 자연어 처리를 위한 사전 학습 모델 재검토 | 최신 연구 논문 | HyperAI초신경