DeBERTaV3:勾配分離埋め込み共有を用いたELECTRA風事前学習によるDeBERTaの改善

本稿では、マスク言語モデル(MLM)をよりサンプル効率の高い事前学習タスクである「置換トークン検出(RTD)」に置き換えることで、元のDeBERTaモデルを改善した新しい事前学習言語モデル、DeBERTaV3を提案する。我々の分析によれば、ELECTRAにおける従来の埋め込み共有(vanilla embedding sharing)は、学習効率とモデル性能を低下させる。その理由は、識別器(discriminator)と生成器(generator)の学習損失がトークン埋め込みを異なる方向に引き寄せ、いわゆる「引き合い」(tug-of-war)ダイナミクスを生じるためである。この問題を解決するため、この「引き合い」ダイナミクスを回避する新しい勾配分離型埋め込み共有手法を提案した。この手法により、学習効率と事前学習モデルの品質の両方が向上した。DeBERTaと同一の設定でDeBERTaV3を事前学習し、広範な下流自然言語理解(NLU)タスクにおける優れた性能を実証した。例えば、8つのタスクからなるGLUEベンチマークにおいて、DeBERTaV3 Largeモデルは平均スコア91.37%を達成し、DeBERTaより1.37%、ELECTRAより1.91%高い性能を示し、同程度の構造を持つモデルの中で新たな最良(SOTA)記録を樹立した。さらに、多言語モデルであるmDeBERTaを事前学習し、英語モデルと比較してより顕著な性能向上が見られた。例えば、mDeBERTa BaseはXNLIベンチマークにおいてゼロショット多言語精度79.8%を達成し、XLM-R Baseより3.6%の向上を示し、同ベンチマークで新たなSOTAを記録した。本研究で開発した事前学習済みモデルおよび推論コードは、GitHub(https://github.com/microsoft/DeBERTa)にて公開している。