2 个月前

批归一化最大输出网络中的网络

Jia-Ren Chang; Yong-Sheng Chen
批归一化最大输出网络中的网络
摘要

本文介绍了一种新颖的深度架构,称为最大输出网络中的网络(Maxout Network In Network, MIN),该架构可以增强模型的辨别能力,并促进感受野内的信息抽象过程。所提出的网络采用了最近开发的“网络中的网络”结构框架,该框架通过滑动一个通用逼近器——带有整流单元的多层感知机(Multilayer Perceptron, MLP)来提取特征。与传统的MLP不同,我们使用了最大输出MLP(maxout MLP),以学习多种分段线性激活函数,并解决在使用整流单元时可能出现的梯度消失问题。此外,为了减少最大输出单元的饱和现象,我们应用了批归一化(batch normalization)对模型进行预条件处理;同时,使用了dropout技术来防止过拟合。最后,在所有池化层中均采用了平均池化(average pooling),以正则化最大输出MLP,从而在每个感受野内促进信息抽象的同时容忍物体位置的变化。由于平均池化保留了局部区域的所有特征,因此所提出的MIN模型可以在训练过程中强制抑制无关信息。实验结果表明,当将MIN模型应用于MNIST、CIFAR-10和CIFAR-100数据集时,其分类性能达到了当前最佳水平;而在SVHN数据集上的表现也与现有方法相当。