8 个月前

摘要

神经网络架构的创新推动了语言建模与计算机视觉领域的重大突破。然而，新型架构往往导致超参数选择困难以及训练过程不稳定，尤其是在网络参数初始化不当的情况下。尽管已有多种针对特定架构的初始化方法被提出，但这些方法通常难以迁移至新架构。本文提出一种自动化且与架构无关的神经网络初始化方法——GradInit。该方法基于一个简单而有效的启发式原则：通过调整网络各层的参数范数，使得在给定超参数的前提下，采用随机梯度下降（SGD）或Adam优化器执行一步更新后，损失值达到最小。为此，GradInit在每个参数块前引入一个标量缩放因子，并通过一种简单的数值优化策略对这些因子进行优化。实验表明，GradInit能够显著加速多种卷积神经网络架构（包括带或不带跳跃连接、以及不依赖归一化层的结构）的收敛速度并提升测试性能。此外，该方法还能有效增强原始Transformer架构在机器翻译任务中的训练稳定性，使其在广泛的学习率与动量系数范围内，无需学习率预热（warmup）即可使用SGD或Adam成功训练。相关代码已开源，地址为：https://github.com/zhuchen03/gradinit。

源 PDF