
초록
事전 학습 언어 모델(PLM)은 자연어 처리 분야에서 대표적인 기초 모델이 되었습니다. 대부분의 PLM은 마스킹된 언어 모델(MLM)과 같은 텍스트의 표면 형태에 대한 언어 독립적인 사전 학습 작업을 통해 학습됩니다. PLM에 더 풍부한 언어 특성을 부여하기 위해, 본 논문에서는 사전 학습 언어 모델을 위한 간단하면서도 효과적인 방법을 제안하고자 합니다. 우리는 원래의 MLM 사전 학습 작업과 함께 세 가지 유형의 언어 특성을 학습하는 데 사용되는 언어 정보화 사전 학습(LIP) 전략을 활용하여 LERT를 제안합니다. 우리는 10개의 중국어 자연어 이해(NLU) 작업에서 광범위한 실험을 수행하였으며, 실험 결과는 LERT가 다양한 비교 기준모델보다 상당한 개선을 가져올 수 있음을 보여주고 있습니다. 또한, 우리는 다양한 언어 측면에서 분석적 실험을 수행하였으며, 그 결과는 LERT 설계의 유효성과 효과성을 입증하고 있습니다. 자원은 https://github.com/ymcui/LERT에서 이용 가능합니다.