
要約
我々は、要約対象のコンテンツ選択とその内容をカバーするための予算を分離することにより、抽出型要約モデルの性能および適用性が向上すると主張する。本研究で提案する手法FactorSumは、エネルギー関数を用いて要約を二段階に因子分解することで、この分離を実現する。具体的には、(1) 抽出型要約ビューの生成、(2) 予算制約およびコンテンツガイドラインに従ってこれらのビューを統合して最終的な要約を生成する。このガイドラインは、BARTやBigBirdなどのアドバイザーモデルから得られる場合もあれば、オラクルモード(参照文から)で得られる場合もある。この因子分解により、長文要約の複数のベンチマーク(PubMed、arXiv、GovReport)において、著しく高いROUGEスコアが達成された。特に注目すべきは、本モデルがドメイン適応において有効である点である。PubMedデータのみで訓練した場合でも、arXivにおいて46.29のROUGE-1スコアを達成しており、これはドメイン特有のテキスト構造に依存しない柔軟な予算適応とコンテンツ選択により、強力な汎化性能を示していることを示している。