17 天前
DeepMAD:面向深度卷积神经网络的数学架构设计
Xuan Shen, Yaohua Wang, Ming Lin, Yilun Huang, Hao Tang, Xiuyu Sun, Yanzhi Wang

摘要
视觉Transformer(Vision Transformer, ViT)的迅猛发展显著提升了各类视觉任务的性能上限,使其在多数场景下超越了传统的基于卷积神经网络(CNN)的模型。这一趋势促使近期出现了一批具有突破性的研究,重新审视CNN的潜力——研究发现,通过精心调优,纯CNN模型同样可以达到与ViT相媲美的性能水平。尽管前景令人鼓舞,但设计此类高性能CNN模型仍面临巨大挑战,需要丰富的网络架构先验知识。为此,本文提出一种全新的系统化框架——深度CNN数学架构设计(Mathematical Architecture Design for Deep CNN, DeepMAD),旨在以严谨的数学方法设计高性能CNN模型。在DeepMAD框架中,CNN网络被建模为一个信息处理系统,其表达能力与计算效率可通过其结构参数进行解析性建模。随后,构建了一个带约束的数学规划(Mathematical Programming, MP)问题,用于优化这些结构参数。该MP问题可直接利用现成的CPU端MP求解器高效求解,且仅需极小的内存开销。此外,DeepMAD是一个纯粹的数学框架:在模型设计阶段,无需依赖GPU加速,也无需任何训练数据。该方法的优越性已在多个大规模计算机视觉基准数据集上得到验证。尤为突出的是,在ImageNet-1k数据集上,仅使用传统卷积层,DeepMAD在Tiny级别上分别比ConvNeXt和Swin高出0.7%和1.5%的Top-1准确率;在Small级别上则分别高出0.8%和0.9%。这些结果充分证明了DeepMAD在无需复杂设计经验与大规模训练资源的前提下,能够系统性地生成高性能CNN架构。