2 个月前

关于归一化层在使用分段线性激活单元的深度学习中的重要性

Zhibin Liao; Gustavo Carneiro
关于归一化层在使用分段线性激活单元的深度学习中的重要性
摘要

具有分段线性激活函数的深度前馈神经网络目前在多个公开数据集上取得了最先进的结果。深度学习模型与分段线性激活函数的结合使得通过大量专门用于分类相似输入样本的子网络来估计指数级复杂函数成为可能。在训练过程中,这些子网络通过共享参数的方式避免了过拟合,从而实现了一种隐式的正则化方案。基于这一框架,我们进行了一个实证观察,该观察可以进一步提高此类模型的性能。我们注意到,这些模型假设数据点在其分段线性激活函数域内初始分布是平衡的。如果这一假设被违反,那么分段线性激活单元可能会退化为纯线性激活单元,这可能导致其学习复杂函数的能力显著下降。此外,随着模型层数的增加,这种不平衡的初始分布会使模型变得病态(ill-conditioned)。因此,我们建议在具有分段线性激活函数的深度前馈神经网络中引入批归一化单元,以促进这些激活单元的更均衡使用,确保每个激活区域都能接受到相对较多的训练样本进行训练。同时,批归一化有助于非常深的学习模型的预条件处理(pre-conditioning)。我们展示了在网络中的网络模型中引入最大输出(maxout)和批归一化单元后,所得到的模型在CIFAR-10、CIFAR-100、MNIST和SVHN数据集上的分类结果优于或可与当前最先进水平相媲美。