
要約
優れた要約生成モデルは、要約対象のテキストから重要な情報をそのままコピーするだけでなく、具体的な内容を表現するための新たな概念語を生成する傾向を持つべきである。本研究では、広く用いられているポインタジェネレータ系列変換モデル(pointer generator sequence-to-sequence model)に着想を得て、要約の抽象化性能を向上させるための「概念ポインタネットワーク」を提案する。このネットワークは、知識ベースかつ文脈に敏感な概念化手法を活用し、候補概念の拡張セットを生成する。その後、生成された概念セットと元のソーステキストの両方を用いて、最も適切な選択をポインタで示す。この統合的なアプローチにより、より高レベルの意味的コンセプトを含む抽象的要約が生成される。さらに、参照要約とテストデータセットを用いた新しい遠隔教師付き学習(distantly-supervised learning)手法に基づき、モデルの学習プロセスを異なるデータセットに適応するよう最適化している。全体として、本手法はDUC-2004およびGigawordの両データセットにおいて、複数の最先端モデルと比較して統計的に有意な性能向上を示した。また、人間による評価でも、本フレームワークによって生成された要約の質の高さが裏付けられている。