摘要
EfficientNet 是一种近期提出的深度卷积神经网络(DCNN)架构,旨在在深度、宽度和分辨率三个方面实现比例化的可扩展性。通过其系列变体,该架构在 ImageNet 分类任务以及其他经典视觉挑战中均达到了当前最优的准确率。尽管其名称强调了在模型性能(准确率)与资源消耗(参数量、浮点运算次数,FLOPs)之间的高效平衡,本文提出了一种方法,可在保持几乎相同准确率的前提下,将原始模型的可训练参数数量减少超过 84%。我们的方法聚焦于优化逐点卷积(pointwise convolution,即 1×1 卷积),这类卷积的参数量会随着前一层输入通道数与滤波器数量的乘积而迅速增长。基本思路是将滤波器分组为并行分支,每个分支仅处理输入通道的一部分。然而,这种结构化分组会降低网络的表达能力,导致模型学习性能下降。为缓解这一问题,我们提出在连续的逐点卷积层之间的中间层中,对来自不同分支的输出进行交错融合(interleaving),从而增强特征信息的交互与传播。在 CIFAR-10 数据集上的实验结果表明,所优化的 EfficientNet 在从零开始训练时,其学习能力与原始架构相当,验证了该方法在大幅压缩参数量的同时仍能有效维持模型性能的可行性。