
초록
대규모 사전 훈련된 Transformer 모델은 자연어 처리 작업에 있어 매우 뛰어난 성능을 입증해 왔지만, 긴 시퀀스 입력을 처리하는 것은 여전히 큰 도전 과제로 남아 있다. 대표적인 예로 긴 입력 요약(task)이 있으며, 이는 대부분의 사전 훈련된 모델이 지원하는 최대 입력 컨텍스트를 초과하는 입력을 다루는 것이다. 우리는 광범위한 실험을 통해 사전 훈련된 Transformer 모델을 긴 입력 요약에 효과적으로 적응시키기 위해 어떤 아키텍처적 변화와 사전 훈련 전략이 가장 효율적인지를 조사하였다. 그 결과, 전역 인코더 토큰을 갖춘 단계적(block-local) 구조의 Transformer가 성능과 효율성 사이에서 적절한 균형을 이루며, 긴 시퀀스에 대한 추가 사전 훈련 단계가 다운스트림 요약 성능을 의미 있게 향상시킨다는 것을 발견하였다. 본 연구 결과를 바탕으로, 우리는 최대 16K 토큰까지의 입력을 처리할 수 있도록 긴 입력 사전 훈련을 추가한 PEGASUS 모델의 확장판인 PEGASUS-X를 제안한다. PEGASUS-X는 훨씬 더 큰 모델과 비교해도 우수한 성능을 보이며, 추가 파라미터 수가 거의 없고, 모델 병렬화 없이도 훈련이 가능하다는 점에서 매우 효율적이다.