17일 전

지속적 사전 훈련(Langauge Models)

Zixuan Ke, Yijia Shao, Haowei Lin, Tatsuya Konishi, Gyuhak Kim, Bing Liu
지속적 사전 훈련(Langauge Models)
초록

언어 모델(LM)은 자연어 처리 분야의 급속한 발전에 기여해 왔다. 본 논문은 언어 모델의 지속적 사전 훈련, 특히 지속적 도메인 적응 사전 훈련(이하 지속적 DAP-훈련)에 대해 연구한다. 기존 연구들은 특정 도메인의 코퍼스를 사용하여 사전 훈련된 언어 모델을 추가로 사전 훈련함으로써 해당 도메인에 적합하게 조정하면, 도메인 내 최종 작업 성능이 향상됨을 보여주었다. 본 논문은 여러 개의 레이블이 없는 도메인 코퍼스 시퀀스를 이용하여 언어 모델을 지속적으로 DAP-훈련하는 새로운 방법을 제안한다. 이 방법은 언어 모델이 여러 도메인에 지속적으로 적응하도록 하여 최종 작업 성능을 향상시키는 것을 목표로 한다. 본 방법의 핵심 혁신점은 언어 모델의 업데이트를 직접 제어하는 소프트 마스킹 기법이다. 또한, 사전 훈련된 언어 모델의 일반 지식을 보존하기 위해 새로운 프록시를 제안한다. 더불어, 기존에 학습된 도메인 지식(사전 훈련된 언어 모델 내 포함된 일반 지식 포함)의 표현과 현재 전체 네트워크의 지식 표현을 대조함으로써 지식 통합을 달성한다. 제안한 방법은 기존 지식의 급속한 소실(카타스트로픽 플래싱) 문제를 해결할 뿐만 아니라 지식 전이를 통해 최종 작업 성능을 향상시킨다. 실험적 평가를 통해 제안된 방법의 효과성을 입증하였다.