2달 전
ERNIE: 정보 있는 개체를 활용한 언어 표현 향상
Zhengyan Zhang; Xu Han; Zhiyuan Liu; Xin Jiang; Maosong Sun; Qun Liu

초록
대규모 문헌에 사전 학습된 BERT와 같은 신경 언어 표현 모델은 평문에서 풍부한 의미 패턴을 잘 포착하고, 다양한 NLP 작업의 성능을 일관되게 개선하기 위해 미세 조정(fine-tuning)될 수 있습니다. 그러나 기존의 사전 학습 언어 모델은 지식 그래프(KGs)를 통합하는 경우가 드물며, 이는 더 나은 언어 이해를 위한 풍부한 구조화된 지식 사실을 제공할 수 있습니다. 우리는 지식 그래프 내의 정보성 있는 엔티티들이 외부 지식으로 언어 표현을 강화할 수 있다고 주장합니다. 본 논문에서는 대규모 문헌과 지식 그래프를 동시에 활용하여, 어휘, 문법, 그리고 지식 정보를 모두 최대한 활용할 수 있는 강화된 언어 표현 모델(ERNIE)을 훈련시키는 방법을 제시합니다. 실험 결과, ERNIE는 다양한 지식 기반 작업에서 상당한 개선을 보였으며, 다른 일반적인 NLP 작업에서는 최신 모델인 BERT와 유사한 성능을 나타냈습니다. 본 논문의 소스 코드는 https://github.com/thunlp/ERNIE에서 확인할 수 있습니다.