HyperAIHyperAI

Command Palette

Search for a command to run...

UniDrop:追加コストなしでTransformerの性能を向上させるシンプルかつ効果的な手法

Zhen Wu Lijun Wu Qi Meng Yingce Xia Shufang Xie Tao Qin Xinyu Dai Tie-Yan Liu

概要

Transformerアーキテクチャは、多様な自然言語処理タスクにおいて大きな成功を収めている。Transformerモデルの過剰パラメータ化は、より優れた性能を達成するために過適合を軽減するための多くの研究を促進している。いくつかの探索を通じて、ドロップアウトのような単純な技術が、適切な設計のもとでモデル性能を顕著に向上させることを明らかにした。そこで本論文では、Transformerモデルの学習にさまざまなドロップアウト技術を統合するアプローチを提案する。具体的には、細粒度から粗粒度まで異なる3つのドロップアウト技術——特徴ドロップアウト(feature dropout)、構造ドロップアウト(structure dropout)、データドロップアウト(data dropout)——を統合する手法、UniDropを提案する。理論的には、これらの3種類のドロップアウトが正則化の観点から異なる役割を果たすことを示した。実験的には、ニューラル機械翻訳およびテキスト分類のベンチマークデータセットを用いて検証を行った。広範な実験結果から、UniDropを導入したTransformerモデルは、IWSLT14翻訳タスクにおいて約1.5 BLEUの向上を達成し、強力な事前学習モデルであるRoBERTaをバックボーンとして用いても、分類タスクにおいてより高い精度を実現することが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています