11日前

PRIMERA:マルチドキュメント要約のためのピラミッドベースマスク文プレトレーニング

Wen Xiao, Iz Beltagy, Giuseppe Carenini, Arman Cohan
PRIMERA:マルチドキュメント要約のためのピラミッドベースマスク文プレトレーニング
要約

我々は、要約を主眼とした複数文書表現のための事前学習モデル「PRIMERA」を紹介する。このモデルは、データセット固有のアーキテクチャや大量の教師あり微調整データの必要性を低減することを目的としている。PRIMERAは、文書間の情報を連携し統合する能力を学習させるために新たに提案した事前学習目的を採用している。また、連結された入力文書の処理を簡素化するため、効率的なエンコーダ・デコーダ型Transformerを用いている。3つの異なるドメインにまたがる6つの複数文書要約データセットにおいて、ゼロショット、フェイショット、フル教師ありの設定で広範な実験を行った結果、PRIMERAはほとんどの設定において、現在の最先端のデータセット特化型モデルおよび事前学習モデルを大幅に上回る性能を達成した。コードおよび事前学習済みモデルは、\url{https://github.com/allenai/PRIMER} で公開されている。

PRIMERA:マルチドキュメント要約のためのピラミッドベースマスク文プレトレーニング | 最新論文 | HyperAI超神経