HyperAIHyperAI

Command Palette

Search for a command to run...

AutoDropout:学习Dropout模式以正则化深度网络

Hieu Pham Quoc V. Le

摘要

神经网络通常具有过参数化特性,因此更受益于激进的正则化方法。传统的正则化技术,如Dropout或权重衰减(weight decay),并未利用网络输入和隐藏状态的结构信息。因此,这类方法的效果不如那些能够利用结构信息的正则化策略,例如SpatialDropout和DropBlock。这些结构化方法会随机丢弃隐藏状态中某些连续区域的值,并将其置零。尽管Dropout区域的位置是随机的,但SpatialDropout和DropBlock的模式是人工设计且固定的。本文提出一种新方法:学习Dropout模式。在该方法中,一个控制器学习为目标网络(如卷积神经网络ConvNet或Transformer)的每一层、每一通道生成特定的Dropout模式。目标网络在该Dropout模式下进行训练,其验证性能作为信号反馈给控制器,用于指导控制器的学习。实验表明,该方法在CIFAR-10和ImageNet图像识别任务,以及Penn Treebank和WikiText-2语言建模任务上均表现良好。此外,所学习到的Dropout模式具有良好的迁移能力,可应用于不同任务与数据集,例如从Penn Treebank上的语言模型迁移至WMT 2014的英法翻译任务。相关代码将公开发布。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供