2ヶ月前

MASS: 言語生成のためのマスクされたシーケンス・ツー・シーケンス事前学習

Kaitao Song; Xu Tan; Tao Qin; Jianfeng Lu; Tie-Yan Liu

要約

事前学習と微調整、例えばBERTは、豊富なリソースを持つ事前学習タスクから低/ゼロリソースの下流タスクへ知識を転送することにより、言語理解において大きな成功を収めています。BERTの成功に触発され、エンコーダー-デコーダーベースの言語生成タスク向けにMAsked Sequence to Sequence事前学習（MASS）を提案します。MASSは、残りの部分が与えられた文断片を再構築するためにエンコーダー-デコーダーフレームワークを採用しています：そのエンコーダーはランダムにマスキングされた断片（複数の連続するトークン）を持つ文を受け取り、デコーダーはこのマスキングされた断片を予測しようとします。この方法により、MASSはエンコーダーとデコーダーを共同で訓練し、表現抽出と言語モデル化の能力を開発することができます。さらに、神経機械翻訳、要約生成、対話応答生成（3つのタスクおよび合計8つのデータセット）などの多様なゼロ/低リソース言語生成タスクでの微調整によって、事前学習なしまたは他の事前学習方法を使用した基準モデルに対して有意な改善を達成しています。特に、無教師英仏翻訳において最新の精度（BLEUスコアで37.5）を達成しており、初期の注意機構に基づく監督モデルさえも上回っています。