16일 전
자기지도형 사전학습의 향상을 위한 완전 탐색형 마스킹 언어 모델
Mingzhi Zheng, Dinghan Shen, Yelong Shen, Weizhu Chen, Lin Xiao

초록
마스크 언어 모델(Masked Language Model, MLM) 프레임워크는 자기지도 학습을 통한 언어 사전 훈련에 널리 채택되어 왔다. 본 논문에서는 MLM에서 무작위로 샘플링된 마스크가 부적절한 큰 기울기 분산을 초래할 수 있음을 주장한다. 이를 바탕으로, 특정 텍스트 시퀀스에 대해 두 개의 다른 마스크 간의 하밍 거리(Hamming distance)와 기울기 공분산을 연관시켜 기울기 분산을 이론적으로 정량화한다. 마스크 샘플링에 의한 분산을 줄이기 위해, 텍스트 시퀀스를 겹치지 않는 일정 수의 세그먼트로 나누고, 한 세그먼트 내의 토큰만을 마스크하는 완전 탐색 마스킹 전략을 제안한다. 이 새로운 마스킹 전략에서 도출되는 기울기는 이론적으로 더 낮은 분산을 가지며, 더 효율적인 자기지도 학습을 가능하게 함을 입증한다. 본 연구는 지속적 사전 훈련과 새로운 시점에서의 일반적 사전 훈련 모두에 걸쳐 광범위한 실험을 수행하였으며, 실증 결과는 제안된 마스킹 전략이 기존의 무작위 마스킹 전략보다 일관되게 우수함을 확인한다. 세부적인 효율성 분석 및 제거 실험(Ablation study)을 통해, MLM 프레임워크 하에서 본 연구의 완전 탐색 마스킹 전략이 갖는 장점이 더욱 명확히 입증된다.