17日前

AutoDropout:深層ネットワークの正則化のためのドロップアウトパターンの学習

Hieu Pham, Quoc V. Le
AutoDropout:深層ネットワークの正則化のためのドロップアウトパターンの学習
要約

ニューラルネットワークはしばしば過剰パラメータ化されており、そのため積極的な正則化の恩恵を受ける。従来の正則化手法、たとえばドロップアウト(Dropout)や重み減衰(weight decay)は、ネットワークの入力や隠れ状態の構造を活用しない。その結果、空間的ドロップアウト(SpatialDropout)やドロップブロック(DropBlock)といった、隠れ状態の特定の連続領域の値をランダムにゼロに設定する手法に比べて、効果が劣ることがある。これらの手法ではドロップアウト領域の位置はランダムであるものの、SpatialDropoutやDropBlockのパターンは手動で設計され、固定されている。本研究では、ドロップアウトパターンを学習する手法を提案する。本手法では、コントローラーが対象ネットワーク(たとえばConvNetやTransformer)の各チャネルおよび各層に対してドロップアウトパターンを学習して生成する。その後、そのドロップアウトパターンを用いて対象ネットワークを訓練し、得られた検証性能をもってコントローラーの学習信号とする。我々は、この手法がCIFAR-10およびImageNetにおける画像認識、およびPenn TreebankおよびWikiText-2における言語モデル構築の両方で有効であることを示す。さらに、学習されたドロップアウトパターンは、異なるタスクやデータセット間でも転移可能であることが確認された。たとえば、Penn Treebank上で学習した言語モデルのパターンをWMT 2014の英仏翻訳タスクに適用するなど、汎用性が認められる。本研究のコードは公開予定である。

AutoDropout:深層ネットワークの正則化のためのドロップアウトパターンの学習 | 最新論文 | HyperAI超神経