
要約
大規模な要約データセットに対する分析から、長文ドキュメントの要約において冗長性が極めて深刻な問題であることが明らかになった。しかし、ニューラル要約において冗長性の低減は十分に検討されていない。本研究では、長文要約における冗長性に対処するためのさまざまなアプローチを体系的に探求・比較する。具体的には、既存の手法を冗長性を考慮するタイミングと方法に基づいてカテゴリに分類し、その枠組みの下で、非冗長性と重要性のバランスを一般的かつ柔軟にとるための3つの新しい手法を提案する。多数の実験を通じて、提唱する手法が、科学論文データセットであるPubmedおよびarXivにおいて、ROUGEスコアで最先端の性能を達成するとともに、冗長性を顕著に低減することを示した。