
摘要
批量归一化(Batch Normalization, BN)广泛应用于加速神经网络训练并提高泛化能力,通过在小批量内进行标准化操作实现这一目标。去相关批量归一化(Decorrelated Batch Normalization, DBN)通过白化进一步增强了上述效果。然而,DBN 高度依赖于较大的批量大小或特征分解,后者在 GPU 上的效率较低。我们提出了一种迭代归一化方法(Iterative Normalization, IterNorm),该方法利用牛顿迭代法进行更高效的白化,同时避免了特征分解。此外,我们进行了全面的研究,从理论和实验两方面证明 IterNorm 在优化和泛化之间具有更好的平衡。为此,我们专门引入了随机归一化扰动(Stochastic Normalization Disturbance, SND),用于衡量样本在归一化操作中固有的随机不确定性。借助 SND 的支持,我们从优化的角度对几种现象提供了自然解释,例如为什么 DBN 中的分组白化通常优于完全白化,以及为什么 BN 的准确性随着批量大小的减小而下降。我们在 CIFAR-10 和 ImageNet 数据集上进行了广泛的实验,结果表明 IterNorm 与 BN 和 DBN 相比,在性能上始终有所提升。