17일 전
소수 샘플 학습을 위한 언어 모델의 지속적 훈련
Zixuan Ke, Haowei Lin, Yijia Shao, Hu Xu, Lei Shu, Bing Liu

초록
최근 대규모 언어모델(LM)을 활용한 연구는 여러 자연어처리(NLP) 응용 분야에서 놀라운 성능을 달성하고 있다. 레이블이 없는 도메인 코퍼스를 사용하여 언어모델을 적응하거나 후학습(posttraining)하면, 해당 도메인 내 최종 작업에 대해 더욱 뛰어난 성능을 얻을 수 있다. 본 논문은 이전의 기술을 잊지 않은 채, 레이블이 없는 도메인 코퍼스의 시퀀스를 차례로 사용하여 언어모델을 점진적으로 후학습함으로써 지식을 지속적으로 확장하는 문제를 제안한다. 이는 이러한 도메인에서 소수의 예시(few-shot) 최종 작업 학습 성능을 향상시키는 것을 목표로 한다. 제안하는 시스템은 CPT(Continual PostTraining)라 불리며, 저희 지식상 최초의 지속적 후학습 시스템이다. 실험 결과는 이 시스템의 효과성을 입증한다.