9일 전

UniLMv2: 통합 언어 모델 사전 훈련을 위한 가상 마스킹 언어 모델

Hangbo Bao, Li Dong, Furu Wei, Wenhui Wang, Nan Yang, Xiaodong Liu, Yu Wang, Songhao Piao, Jianfeng Gao, Ming Zhou, Hsiao-Wuen Hon
UniLMv2: 통합 언어 모델 사전 훈련을 위한 가상 마스킹 언어 모델
초록

우리는 새로운 학습 절차인 가상 마스킹 언어 모델(이하 PMLM, Pseudo-Masked Language Model)을 사용하여, 자동인코딩과 부분적 자기회귀적 언어 모델링이라는 두 가지 작업을 위한 통합 언어 모델을 사전 학습하는 방법을 제안한다. 입력 텍스트 내에 마스킹된 토큰이 존재할 경우, 기존의 마스킹을 활용하여 손상된 토큰과 맥락 간의 상호관계를 자동인코딩 방식으로 학습하고, 가상 마스킹을 사용하여 마스킹된 구간들 사이의 내부 관계를 부분적 자기회귀 모델링을 통해 학습한다. 잘 설계된 위치 임베딩과 자기주의 마스킹을 통해 맥락 인코딩을 재사용함으로써 중복 계산을 방지한다. 또한, 자동인코딩에 사용되는 기존 마스킹은 전역적인 마스킹 정보를 제공하므로, 부분적 자기회귀 언어 모델링 과정에서 모든 위치 임베딩에 접근할 수 있다. 더불어, 두 가지 작업은 각각 통합 언어 모델을 양방향 인코더와 시퀀스-투-시퀀스 디코더로 사전 학습한다. 실험 결과, PMLM를 통해 사전 학습된 통합 언어 모델은 여러 평가 기준에서 자연어 이해 및 생성 작업에 대해 광범위한 벤치마크에서 새로운 최고 성능을 달성하였다.