17日前

R-Drop:ニューラルネットワークのための正則化ドロップアウト

Xiaobo Liang, Lijun Wu, Juntao Li, Yue Wang, Qi Meng, Tao Qin, Wei Chen, Min Zhang, Tie-Yan Liu
R-Drop:ニューラルネットワークのための正則化ドロップアウト
要約

ドロップアウトは、深層ニューラルネットワークの訓練を正則化するための強力かつ広く用いられている手法である。本論文では、モデルの訓練においてドロップアウトをベースにしたシンプルな正則化戦略、すなわちR-Dropを提案する。R-Dropは、ドロップアウトによって生成される異なるサブモデルの出力分布が互いに一貫性を持つように強制するものである。具体的には、各訓練サンプルに対して、ドロップアウトによってサンプリングされた2つのサブモデルの出力分布間の双方向KLダイバージェンスを最小化する。理論的解析により、R-Dropがモデルパラメータの自由度を低下させ、ドロップアウトを補完する効果があることが示された。神経機械翻訳、要約生成、言語理解、言語モデリング、画像分類の5つの広く用いられる深層学習タスク(合計18のデータセット)における実験結果から、R-Dropが普遍的に有効であることが確認された。特に、大規模事前学習モデル(ViT、RoBERTa-large、BARTなど)の微調整に適用した場合、顕著な性能向上が得られ、WMT14英語→ドイツ語翻訳(30.91 BLEU)およびWMT14英語→フランス語翻訳(43.95 BLEU)において、従来のTransformerモデルを用いた場合でも、大規模な追加データを用いて訓練されたモデルや、専門家が設計した高度なTransformer変種を上回る最先端(SOTA)の性能を達成した。本研究のコードはGitHubにて公開されている:{\url{https://github.com/dropreg/R-Drop}}。