HyperAIHyperAI

Command Palette

Search for a command to run...

GradInit:学习初始化神经网络以实现稳定且高效的训练

Chen Zhu Renkun Ni Zheng Xu Kezhi Kong W. Ronny Huang Tom Goldstein

摘要

神经网络架构的创新推动了语言建模与计算机视觉领域的重大突破。然而,新型架构往往导致超参数选择困难以及训练过程不稳定,尤其是在网络参数初始化不当的情况下。尽管已有多种针对特定架构的初始化方法被提出,但这些方法通常难以迁移至新架构。本文提出一种自动化且与架构无关的神经网络初始化方法——GradInit。该方法基于一个简单而有效的启发式原则:通过调整网络各层的参数范数,使得在给定超参数的前提下,采用随机梯度下降(SGD)或Adam优化器执行一步更新后,损失值达到最小。为此,GradInit在每个参数块前引入一个标量缩放因子,并通过一种简单的数值优化策略对这些因子进行优化。实验表明,GradInit能够显著加速多种卷积神经网络架构(包括带或不带跳跃连接、以及不依赖归一化层的结构)的收敛速度并提升测试性能。此外,该方法还能有效增强原始Transformer架构在机器翻译任务中的训练稳定性,使其在广泛的学习率与动量系数范围内,无需学习率预热(warmup)即可使用SGD或Adam成功训练。相关代码已开源,地址为:https://github.com/zhuchen03/gradinit


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供