ELECTRA: 생성기보다는 구분기로서 텍스트 인코더를 사전 훈련하기

마스크 언어 모델링(Masked Language Modeling, MLM)과 같은 사전 훈련 방법은 입력 데이터의 일부 토큰을 [MASK]로 대체한 후, 모델이 원래 토큰을 재구성하도록 훈련한다. 이러한 방법은 하류 자연어 처리(NLP) 작업으로의 전이 학습에서 우수한 성능을 보이지만, 효과를 발휘하기 위해 일반적으로 대량의 계산 자원이 필요하다. 이를 대체할 수 있는 방법으로, 우리는 더 높은 샘플 효율성을 갖춘 사전 훈련 과제인 ‘대체 토큰 탐지(Replaced Token Detection)’를 제안한다. MLM이 입력을 마스킹하는 방식과 달리, 본 방법은 작은 생성망(generator network)에서 추출한 타당한 대체 토큰으로 일부 토큰을 대체함으로써 입력을 왜곡한다. 이후 원래 토큰의 정체성을 예측하도록 모델을 훈련하는 대신, 왜곡된 입력 내 각 토큰이 생성망에서 샘플링된 대체 토큰으로 대체되었는지 여부를 구분하는 분류형 모델을 훈련한다. 철저한 실험을 통해, 이 새로운 사전 훈련 과제는 마스킹된 소수의 토큰이 아닌 전체 입력 토큰에 대해 정의되기 때문에 MLM보다 훨씬 효율적임을 입증하였다. 그 결과, 동일한 모델 크기, 데이터 및 계산 자원 조건 하에서, 본 방법이 학습한 문맥적 표현은 BERT가 학습한 표현보다 크게 우수하다. 특히 소형 모델의 경우 성능 향상이 두드러지며, 예를 들어 단일 GPU에서 4일간 훈련한 모델이 GLUE 자연어 이해 벤치마크에서 30배 더 많은 계산 자원을 사용해 훈련된 GPT를 능가한다. 또한 본 방법은 스케일이 클 때에도 효과적으로 작동하며, RoBERTa 및 XLNet과 비슷한 성능을 보이되, 그들의 1/4 미만의 계산 자원만을 사용한다. 동일한 계산 자원을 사용할 경우, 본 방법은 두 모델보다 더 뛰어난 성능을 기록한다.