2달 전
ERNIE 2.0: 언어 이해를 위한 지속적인 사전 학습 프레임워크
Yu Sun; Shuohuan Wang; Yukun Li; Shikun Feng; Hao Tian; Hua Wu; Haifeng Wang

초록
최근, 사전 학습 모델들이 다양한 언어 이해 작업에서 최고 수준의 성과를 거두었으며, 이는 대규모 말뭉치에서의 사전 학습이 자연어 처리에 중요한 역할을 할 수 있음을 시사합니다. 현재의 사전 학습 절차는 일반적으로 단어나 문장의 공현象(공현)을 파악하기 위해 몇 가지 간단한 작업에 집중합니다. 그러나 공현 외에도 훈련 말뭉치에는 명명된 실체(named entity), 의미적 유사성(semantic closeness), 담화 관계(discourse relations)와 같은 가치 있는 어휘, 구문 및 의미 정보가 존재합니다. 이러한 훈련 말뭉치에서의 어휘, 구문 및 의미 정보를 최대한 추출하기 위해, 우리는 지속적인 다중 작업 학습을 통해 점진적으로 사전 학습 작업을 구성하고 배우는 연속적인 사전 학습 프레임워크인 ERNIE 2.0을 제안합니다. 실험 결과는 ERNIE 2.0이 영어 GLUE 벤치마크와 중국어에서 일반적으로 사용되는 여러 작업을 포함하여 16개의 작업에서 BERT와 XLNet보다 우수한 성능을 보였음을 입증합니다. 소스 코드와 사전 학습 모델은 https://github.com/PaddlePaddle/ERNIE 에서 제공됩니다.