PEGASUS: 추출된 갭 문장(gap-sentences)를 활용한 추상적 요약을 위한 사전 학습

최근 대규모 텍스트 코퍼스에서 자기지도 학습(self-supervised) 목표를 활용한 Transformer 모델의 사전 학습 기법이, 텍스트 요약을 포함한 다양한 하류 자연어 처리(NLP) 작업에서 미세조정(fine-tuning) 시 뛰어난 성능을 보여주고 있다. 그러나 추상적(abstract) 텍스트 요약에 특화된 사전 학습 목표에 대한 연구는 아직 미비한 실정이며, 다양한 도메인에 걸친 체계적인 평가도 부족한 실정이다. 본 연구에서는 대규모 텍스트 코퍼스를 기반으로 Transformer 기반의 인코더-디코더 모델을 사전 학습시키는 새로운 자기지도 학습 목표를 제안한다. 제안한 모델인 PEGASUS에서는 입력 문서에서 중요한 문장들을 제거하거나 마스킹한 후, 남은 문장들로부터 하나의 출력 시퀀스로 이를 재구성하는 방식으로 학습되며, 이는 추출적 요약(extractive summary)과 유사한 구조를 갖는다. 우리는 최적의 PEGASUS 모델을 뉴스, 과학, 이야기, 지침, 이메일, 특허, 입법안 등 다양한 도메인을 아우르는 12개의 하류 요약 작업에 대해 평가하였다. 실험 결과, ROUGE 점수 기준으로 모든 12개의 데이터셋에서 최신 기술(SOTA) 성능을 달성함을 입증하였다. 또한, 자원이 제한된 환경에서도 놀라운 성능을 보였으며, 예시가 단 1,000개뿐인 6개의 데이터셋에서 기존 최고 성능을 초월하는 결과를 보였다. 마지막으로, 인간 평가를 통해 결과를 검증하였고, 다양한 데이터셋에서 우리 모델의 요약 결과가 인간 수준의 품질에 도달함을 확인하였다.