17 天前

等距梯度传播的理想分组数量

Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Sang Woo Kim
等距梯度传播的理想分组数量
摘要

近年来,为稳定深度神经网络的训练过程,研究者提出了多种归一化层。其中,组归一化(Group Normalization, GN)通过在分组数量上引入一定的自由度,成为层归一化(Layer Normalization)和实例归一化(Instance Normalization)的推广形式。然而,为确定最优的分组数量,通常需依赖基于试错的超参数调优,此类实验耗时较长。在本研究中,我们提出了一种合理设定分组数量的方法。首先,我们发现分组数量会影响组归一化层的梯度行为。基于这一观察,我们推导出理想的分组数量,该数量可校准梯度尺度,从而促进梯度下降优化过程。所提出的分组数量具有坚实的理论基础,能够感知网络结构特征,并可逐层为所有网络层提供合适的分组值。实验结果表明,该方法在多种神经网络架构、任务和数据集上均显著优于现有方法,展现出更优的性能表现。