HyperAIHyperAI

Command Palette

Search for a command to run...

R-Drop:ニューラルネットワークのための正則化ドロップアウト

Xiaobo Liang Lijun Wu Juntao Li Yue Wang Qi Meng Tao Qin Wei Chen Min Zhang Tie-Yan Liu

概要

ドロップアウトは、深層ニューラルネットワークの訓練を正則化するための強力かつ広く用いられている手法である。本論文では、モデルの訓練においてドロップアウトをベースにしたシンプルな正則化戦略、すなわちR-Dropを提案する。R-Dropは、ドロップアウトによって生成される異なるサブモデルの出力分布が互いに一貫性を持つように強制するものである。具体的には、各訓練サンプルに対して、ドロップアウトによってサンプリングされた2つのサブモデルの出力分布間の双方向KLダイバージェンスを最小化する。理論的解析により、R-Dropがモデルパラメータの自由度を低下させ、ドロップアウトを補完する効果があることが示された。神経機械翻訳、要約生成、言語理解、言語モデリング、画像分類の5つの広く用いられる深層学習タスク(合計18のデータセット)における実験結果から、R-Dropが普遍的に有効であることが確認された。特に、大規模事前学習モデル(ViT、RoBERTa-large、BARTなど)の微調整に適用した場合、顕著な性能向上が得られ、WMT14英語→ドイツ語翻訳(30.91 BLEU)およびWMT14英語→フランス語翻訳(43.95 BLEU)において、従来のTransformerモデルを用いた場合でも、大規模な追加データを用いて訓練されたモデルや、専門家が設計した高度なTransformer変種を上回る最先端(SOTA)の性能を達成した。本研究のコードはGitHubにて公開されている:{\url{https://github.com/dropreg/R-Drop}}


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
R-Drop:ニューラルネットワークのための正則化ドロップアウト | 記事 | HyperAI超神経