9日前

ProphetNet：シーケンス・ツー・シーケンス事前学習のための将来Nグラム予測

Weizhen Qi, Yu Yan, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang, Ming Zhou

要約

本稿では、将来のn-gram予測（future n-gram prediction）と提案するnストリーム自己注意機構（n-stream self-attention mechanism）を導入した新たなシーケンス・トゥ・シーケンス事前学習モデルであるProphetNetを提案する。従来のシーケンス・トゥ・シーケンスモデルが1ステップ先の予測を最適化するのに対し、ProphetNetは各時刻において過去のコンテキストトークンに基づき、次のnトークンを同時に予測するnステップ先予測を最適化対象としている。将来のn-gram予測は、モデルが将来のトークンを事前に計画するよう明示的に促し、強い局所的相関に過剰適合するのを防ぐ効果を持つ。本研究では、ベーススケールのデータセット（16GB）および大規模データセット（160GB）を用いてProphetNetの事前学習を実施した。その後、要約生成（abstractive summarization）および質問生成（question generation）タスクにおいて、CNN/DailyMail、Gigaword、SQuAD 1.1のベンチマークで実験を実施した。実験結果から、同じ規模の事前学習コーパスを用いたモデルと比較して、ProphetNetはすべてのデータセットにおいて新たなSOTA（State-of-the-Art）性能を達成したことが示された。