9일 전

ProphetNet: 시퀀스-투-시퀀스 사전 훈련을 위한 미래 N-그램 예측

Weizhen Qi, Yu Yan, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang, Ming Zhou
ProphetNet: 시퀀스-투-시퀀스 사전 훈련을 위한 미래 N-그램 예측
초록

이 논문은 새로운 시퀀스-투-시퀀스 사전 훈련 모델인 ProphetNet을 제안한다. ProphetNet은 미래 n-그램 예측(future n-gram prediction)이라는 새로운 자기지도 학습 목표와 제안된 n-스트림 자기주의(self-attention) 메커니즘을 도입하였다. 기존의 시퀀스-투-시퀀스 모델이 단일 단계 전망 예측을 최적화하는 것과 달리, ProphetNet은 각 시점에서 이전의 컨텍스트 토큰을 기반으로 다음 n개의 토큰을 동시에 예측하는 n단계 전망 예측을 최적화한다. 미래 n-그램 예측은 모델이 향후 토큰을 사전에 계획하도록 명시적으로 유도하며, 강한 국소적 상관관계에 대한 과적합을 방지한다. 우리는 기존의 기초 규모 데이터셋(16GB)과 대규모 데이터셋(160GB)을 각각 활용하여 ProphetNet을 사전 훈련하였다. 이후, 추상적 요약 및 질문 생성 작업을 위한 CNN/DailyMail, Gigaword, SQuAD 1.1 벤치마크에서 실험을 수행하였다. 실험 결과, 동일 규모의 사전 훈련 코퍼스를 사용한 모델들과 비교하여 ProphetNet이 모든 데이터셋에서 새로운 최고 성능(SOTA)을 달성함을 확인할 수 있었다.