17 天前

AutoDropout:学习Dropout模式以正则化深度网络

Hieu Pham, Quoc V. Le
AutoDropout:学习Dropout模式以正则化深度网络
摘要

神经网络通常具有过参数化特性,因此更受益于激进的正则化方法。传统的正则化技术,如Dropout或权重衰减(weight decay),并未利用网络输入和隐藏状态的结构信息。因此,这类方法的效果不如那些能够利用结构信息的正则化策略,例如SpatialDropout和DropBlock。这些结构化方法会随机丢弃隐藏状态中某些连续区域的值,并将其置零。尽管Dropout区域的位置是随机的,但SpatialDropout和DropBlock的模式是人工设计且固定的。本文提出一种新方法:学习Dropout模式。在该方法中,一个控制器学习为目标网络(如卷积神经网络ConvNet或Transformer)的每一层、每一通道生成特定的Dropout模式。目标网络在该Dropout模式下进行训练,其验证性能作为信号反馈给控制器,用于指导控制器的学习。实验表明,该方法在CIFAR-10和ImageNet图像识别任务,以及Penn Treebank和WikiText-2语言建模任务上均表现良好。此外,所学习到的Dropout模式具有良好的迁移能力,可应用于不同任务与数据集,例如从Penn Treebank上的语言模型迁移至WMT 2014的英法翻译任务。相关代码将公开发布。