11日前

PEGASUS:要約抽出を用いたギャップセンテンスを用いた事前学習による抽象的要約

Jingqing Zhang, Yao Zhao, Mohammad Saleh, Peter J. Liu
PEGASUS:要約抽出を用いたギャップセンテンスを用いた事前学習による抽象的要約
要約

最近、大規模なテキストコーパス上で自己教師学習的な目的関数を用いてTransformerモデルを事前学習する手法が、テキスト要約を含む下流の自然言語処理(NLP)タスクにおいて顕著な成果を上げている。しかし、要約特化型の自己教師学習目的関数についてはまだ十分に検討されていない。さらに、多様なドメインにわたる体系的な評価も不足している。本研究では、大規模なテキストコーパス上で、新たな自己教師学習目的関数を用いてTransformerベースのエンコーダデコーダモデルを事前学習する手法を提案する。本手法を「PEGASUS」と名付け、入力文書から重要な文を削除・マスクし、残りの文から一連の出力シーケンスとしてそれらを再構成するというアプローチを採用している。これは抽出型要約に類似した形態である。我々は、新聞、科学、物語、指示文、メール、特許、立法法案など、多様なドメインをカバーする12の下流要約タスクにおいて、最良のPEGASUSモデルを評価した。実験の結果、ROUGEスコアを用いた評価において、すべての12のデータセットで最先端の性能を達成することが示された。また、リソースが限られた環境における要約タスクにおいても、驚くべき性能を発揮し、たった1000件の例しか利用しない6つのデータセットにおいて、従来の最先端手法を上回った。さらに、人間による評価を通じて結果の妥当性を検証したところ、複数のデータセットにおいて、本モデルの要約が人間の要約と同等の品質に達していることが確認された。

PEGASUS:要約抽出を用いたギャップセンテンスを用いた事前学習による抽象的要約 | 最新論文 | HyperAI超神経