11일 전
SMART: 원칙적인 정규화 최적화를 통한 사전 훈련된 자연어 모델에 대한 강건하고 효율적인 미세 조정
Haoming Jiang, Pengcheng He, Weizhu Chen, Xiaodong Liu, Jianfeng Gao, Tuo Zhao

초록
전이 학습은 자연어 처리(NLP) 연구의 전반적인 환경을 근본적으로 변화시켰다. 기존의 많은 최첨단 모델들은 먼저 대규모 텍스트 코퍼스에서 사전 학습된 후, 최종 작업에 대해 미세 조정(fine-tuning)을 수행한다. 그러나 최종 작업에서의 데이터 자원이 제한적이고 사전 학습된 모델의 용량이 매우 크기 때문에, 과도한 미세 조정은 모델이 최종 작업 데이터에 과적합(overfitting)되거나 사전 학습 과정에서 습득한 지식을 잊게 되는 문제가 발생한다. 이러한 문제를 더 체계적이고 근본적으로 해결하기 위해, 사전 학습된 언어 모델에 대한 강건하고 효율적인 미세 조정을 위한 새로운 계산 프레임워크를 제안한다. 구체적으로 제안하는 프레임워크는 두 가지 핵심 요소로 구성된다. 첫째, 모델의 표현 능력을 효과적으로 조절하는 스무스성 유도 정규화(smoothness-inducing regularization)이며, 둘째, 트러스트 영역(trust-region) 방법의 일종인 브레그만 근접점 최적화(Bregman proximal point optimization)로, 지식의 상실을 방지하는 데 기여한다. 실험 결과, 제안하는 방법이 여러 NLP 벤치마크에서 최고 수준의 성능을 달성함을 입증하였다.