
초록
우리는 요약 대상 콘텐츠의 선택을 요약에 사용되는 예산(budget)과 분리함으로써 추상적 요약 생성기의 성능과 적용 가능성을 향상시킬 수 있다고 주장한다. 우리 제안하는 방법인 FactorSum은 에너지 함수를 통해 요약을 두 단계로 분해함으로써 이러한 분리를 실현한다. 첫 번째 단계는 추상적 요약 시각(abstract summary views)을 생성하는 것이며, 두 번째 단계는 이를 예산 제약과 콘텐츠 가이드라인에 따라 최종 요약으로 조합하는 것이다. 이러한 가이드라인은 BART나 BigBird와 같은 어드바이저 모델로부터 유도될 수 있으며, 또는 오라클 모드에서 참조 요약(reference)으로부터 제공될 수도 있다. 이 분해 구조는 긴 문서 요약에 대한 다수의 벤치마크, 즉 PubMed, arXiv, GovReport에서 상당히 높은 ROUGE 점수를 달성한다. 특히 주목할 점은, 본 모델이 도메인 적응(domain adaptation)에 매우 효과적이라는 점이다. PubMed 데이터만으로 훈련된 모델이 arXiv에서 46.29의 ROUGE-1 점수를 기록하며, 이는 더 유연한 예산 적응 능력과 도메인 특화된 텍스트 구조에 의존하지 않는 콘텐츠 선택 방식으로 인해 매우 뛰어난 성능을 보임을 시사한다.