16일 전

텍스트 생성을 위한 모멘텀 캘리브레이션

Xingxing Zhang, Yiran Liu, Xun Wang, Pengcheng He, Yang Yu, Si-Qing Chen, Wayne Xiong, Furu Wei
텍스트 생성을 위한 모멘텀 캘리브레이션
초록

대부분의 텍스트 생성 작업에서 입력과 출력은 모두 토큰 시퀀스 두 개로 변환될 수 있으며, 이를 Transformer와 같은 시퀀스에서 시퀀스로 학습하는 모델 도구를 활용해 모델링할 수 있다. 이러한 모델들은 일반적으로 출력 텍스트 시퀀스의 가능도를 최대화하도록 학습되며, 학습 시 입력 시퀀스와 모든 참(골드) 이전 토큰이 주어진다고 가정한다. 그러나 추론 과정에서는 모델이 노출 편향(Exposure Bias) 문제에 직면하게 된다(즉, 비음역(beam search) 중에는 참 토큰이 아닌 자신이 이전에 예측한 토큰들만 접근 가능하다). 본 논문에서는 텍스트 생성을 위한 MoCa({\bf Mo}mentum {\bf Ca}libration)를 제안한다. MoCa는 비음역과 함께 운동량 이동 평균 생성기를 사용하여 천천히 변화하면서도 일관성 있는 샘플을 동적으로 생성하는 온라인 방법이다. MoCa는 이러한 샘플의 모델 점수를 실제 품질과 일치하도록 학습한다. CNN/DailyMail, XSum, SAMSum, Gigaword 등 네 가지 텍스트 생성 데이터셋에서의 실험 결과, MoCa는 기존의 단순 미세조정(fine-tuning)을 사용하는 강력한 사전 훈련된 Transformer 모델을 일관되게 개선하며, CNN/DailyMail 및 SAMSum 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성하였다.

텍스트 생성을 위한 모멘텀 캘리브레이션 | 최신 연구 논문 | HyperAI초신경