9일 전
GLM: 순차적 빈칸 보충을 통한 일반 언어 모델 사전 학습
Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, Jie Tang

초록
자연어 이해(NLU), 무조건적 생성, 조건부 생성의 세 가지 주요 범주에 해당하는 다양한 작업에서 모두 최고의 성능을 발휘하는 사전 학습 프레임워크는 아직 존재하지 않는다. 기존에는 자동에코딩 모델(BERT 등), 자기회귀 모델(GPT 등), 인코더-디코더 모델(T5 등)과 같은 다양한 사전 학습 아키텍처가 존재해 왔다. 본 연구에서는 이러한 한계를 극복하기 위해 자기회귀적 빈칸 보충(autoregressive blank infilling) 기반의 일반 언어 모델(GLM)을 제안한다. GLM은 빈칸 채우기 사전 학습 방식을 개선하기 위해 2차원 위치 인코딩을 추가하고, 스팬(predicatable spans)을 임의의 순서로 예측할 수 있도록 하여, NLU 작업에서 BERT와 T5를 초월하는 성능을 달성한다. 동시에, 빈칸의 수와 길이를 조절함으로써 다양한 유형의 작업에 대해 동일한 모델을 사전 학습할 수 있다. 동일한 모델 크기와 데이터를 기반으로 NLU, 조건부 생성, 무조건적 생성에 걸쳐 다양한 작업에서 GLM은 BERT, T5, GPT를 모두 상회하며, BERT Large의 1.25배 파라미터를 사용하는 단일 사전 학습 모델로서 최고의 성능을 기록함으로써, 다양한 하류 작업에 대한 뛰어난 일반화 능력을 입증한다.