
要約
神経ネットワークを基盤とする抽象的要約手法は、他の技術よりも流暢な出力を生成しますが、内容選択においては劣ることがあります。本研究では、この問題に対処するための単純な手法を提案します。つまり、データ効率の高い内容選択器を使用して、要約に含まれるべきソース文書内のフレーズを過剰に決定することです。この選択器をボトムアップ注意ステップとして使用し、モデルが可能性のあるフレーズに制約されるようにします。本研究では、この手法がテキスト圧縮能力を向上させつつ、なおかつ流暢な要約を生成することを示しています。この二段階プロセスは、他のエンドツーエンドの内容選択モデルよりも単純かつ高性能であり、CNN-DMおよびNYTコーパスにおけるROUGEスコアで大幅な改善が見られます。さらに、内容選択器は1,000文程度のデータで訓練できるため、訓練済みの要約システムを新しいドメインに転用することが容易になります。