2 个月前

通过循环批量大小计划重新初始化参数

Norman Mu; Zhewei Yao; Amir Gholami; Kurt Keutzer; Michael Mahoney
通过循环批量大小计划重新初始化参数
摘要

最优参数初始化仍然是神经网络训练中的一个关键问题。不良的权重初始化可能会延长训练时间并/或收敛到次优解。本文提出了一种通过在训练过程中反复退火和注入噪声来进行权重重新初始化的方法。我们基于神经网络训练的贝叶斯视角,通过循环批量大小调度来实现这一方法。我们通过在语言建模、自然语言推理和图像分类任务上的大量实验对所提出的方法进行了评估。结果表明,该方法能够将语言建模性能提高最多7.91个困惑度,并减少多达61%的训练迭代次数,同时具有支持快照集成和对抗训练的灵活性。