11일 전

SummaReranker: 추상적 요약을 위한 다중 작업 Mixture-of-Experts 재정렬 프레임워크

Mathieu Ravaut, Shafiq Joty, Nancy F. Chen
SummaReranker: 추상적 요약을 위한 다중 작업 Mixture-of-Experts 재정렬 프레임워크
초록

최근 시퀀스-투-시퀀스 신경망은 추상적 요약(abstract summarization) 분야에서 큰 성과를 거두었으며, 특히 대규모 사전 훈련된 언어 모델을 하류 데이터셋에 맞춤 조정(fine-tuning)함으로써 이를 달성하였다. 이러한 모델들은 일반적으로 비트 서치(beam search)를 사용하여 유일한 요약문을 생성하도록 디코딩된다. 그러나 탐색 공간이 매우 크고, 노출 편향(exposure bias)의 영향을 받아 이러한 디코딩 방식은 최적화되지 않은 경우가 많다. 본 논문에서는 요약 후보 집합에 대해 재순서 정렬(re-ranking)을 수행하는 두 번째 단계 모델을 직접 훈련하는 것이 가능함을 보여준다. 우리 연구에서 제안하는 전문가 혼합 모델(Mixture-of-Experts)인 SummaReranker는 더 나은 후보 요약문을 선택하는 능력을 학습하며, 기반 모델의 성능을 일관되게 향상시킨다. 기반 모델로 PEGASUS를 사용했을 때, CNN-DailyMail에서는 ROUGE 점수를 5.44% 향상시켜 ROUGE-1이 47.16에 도달하였으며, XSum에서는 1.31% 향상되어 ROUGE-1이 48.12에 달했고, Reddit TIFU에서는 9.34% 향상되어 ROUGE-1이 29.83에 도달하여 새로운 최고 성능(state-of-the-art)을 기록하였다. 본 연구의 코드와 체크포인트는 https://github.com/ntunlp/SummaReranker에서 공개될 예정이다.

SummaReranker: 추상적 요약을 위한 다중 작업 Mixture-of-Experts 재정렬 프레임워크 | 최신 연구 논문 | HyperAI초신경