
要約
要約抽出型と要約生成型の両方の長所を統合する試みとして、文再構成(Sentence Rewriting)モデルは、まず文書から重要な文を抽出し、その後その選択された文を言い換えることで要約を生成する戦略を採用している。しかしながら、この枠組みにおける既存のモデルは、多くが文単位の報酬や最適でないラベルに依存しており、学習目的と評価指標の間に不整合が生じている。本論文では、強化学習を用いて要約レベルのROUGEスコアを直接最大化する新たな学習信号を提案する。さらに、BERTをモデルに組み込み、自然言語理解能力を有効に活用している。広範な実験を通じて、提案するモデルと学習手順の組み合わせが、CNN/Daily MailおよびNew York Timesデータセットの両方で新たなSOTA(最良の結果)を達成することを示した。また、DUC-2002テストセットにおいても、より優れた汎化性能を発揮することを実証した。