
초록
긴 문서 요약 시 중복 문제는 매우 심각한 문제임을 대규모 요약 데이터셋 분석을 통해 확인할 수 있다. 그러나 신경망 기반 요약에서 중복 감소는 충분히 탐구되지 않았다. 본 연구에서는 긴 문서 요약 시 중복을 다루는 다양한 방법을 체계적으로 탐색하고 비교한다. 구체적으로 기존의 방법들을 중복을 고려하는 시점과 방법에 따라 범주화한 후, 이러한 범주 내에서 비중복성과 중요성 사이의 균형을 일반적이고 유연한 방식으로 유지하는 세 가지 새로운 방법을 제안한다. 다양한 실험을 통해 제안한 방법이 과학 논문 데이터셋인 Pubmed와 arXiv에서 ROUGE 점수 측면에서 최고 성능을 달성하면서도 중복을 크게 감소시킴을 입증하였다.