
摘要
批归一化(Batch Normalization, BN)已成为训练现代深度神经网络的标准技术。然而,当批量大小(batch size)较小时,其有效性会显著下降,这是因为小批量下的统计量估计变得不准确。这一局限性限制了批归一化在以下两种场景中的应用:1)训练更大规模模型时,受限于内存消耗,不得不采用较小的批量;2)在移动设备或嵌入式设备上进行训练,这些设备的内存资源有限。针对这一问题,本文提出了一种简单而有效的改进方法,称为扩展批归一化(Extended Batch Normalization, EBN)。对于NCHW格式的特征图,EBN沿(N, H, W)维度计算均值,与传统批归一化保持一致,以保留其原有优势。为缓解小批量带来的统计误差问题,EBN将标准差的计算范围扩展至(N, C, H, W)维度,从而显著增加用于标准差估计的样本数量。我们在MNIST、CIFAR-10/100、STL-10以及ImageNet等多个数据集上,将扩展批归一化与传统批归一化和组归一化(Group Normalization)进行了对比实验。实验结果表明,扩展批归一化在小批量条件下有效缓解了传统批归一化性能下降的问题,同时在性能上接近于使用大批次时的批归一化表现。