9日前

ProphetNet:シーケンス・ツー・シーケンス事前学習のための将来Nグラム予測

Weizhen Qi, Yu Yan, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang, Ming Zhou
ProphetNet:シーケンス・ツー・シーケンス事前学習のための将来Nグラム予測
要約

本稿では、将来のn-gram予測(future n-gram prediction)と提案するnストリーム自己注意機構(n-stream self-attention mechanism)を導入した新たなシーケンス・トゥ・シーケンス事前学習モデルであるProphetNetを提案する。従来のシーケンス・トゥ・シーケンスモデルが1ステップ先の予測を最適化するのに対し、ProphetNetは各時刻において過去のコンテキストトークンに基づき、次のnトークンを同時に予測するnステップ先予測を最適化対象としている。将来のn-gram予測は、モデルが将来のトークンを事前に計画するよう明示的に促し、強い局所的相関に過剰適合するのを防ぐ効果を持つ。本研究では、ベーススケールのデータセット(16GB)および大規模データセット(160GB)を用いてProphetNetの事前学習を実施した。その後、要約生成(abstractive summarization)および質問生成(question generation)タスクにおいて、CNN/DailyMail、Gigaword、SQuAD 1.1のベンチマークで実験を実施した。実験結果から、同じ規模の事前学習コーパスを用いたモデルと比較して、ProphetNetはすべてのデータセットにおいて新たなSOTA(State-of-the-Art)性能を達成したことが示された。