7 天前

MogaNet:多阶门控聚合网络

Siyuan Li, Zedong Wang, Zicheng Liu, Cheng Tan, Haitao Lin, Di Wu, Zhiyuan Chen, Jiangbin Zheng, Stan Z. Li
MogaNet:多阶门控聚合网络
摘要

通过尽可能将卷积核(kernel)的上下文信息全局化,现代卷积神经网络(ConvNets)在计算机视觉任务中展现出巨大潜力。然而,近期关于深度神经网络(DNNs)中多阶博弈论交互的研究揭示了现代ConvNets的表征瓶颈:随着卷积核尺寸的增大,其表达性交互能力并未得到有效编码。为应对这一挑战,本文提出一类新型现代ConvNets,命名为MogaNet,旨在基于纯卷积网络架构实现判别性视觉表征学习,并在模型复杂度与性能之间取得优异的权衡。MogaNet将概念简洁但高效的卷积操作与门控聚合机制整合进一个紧凑模块中,能够高效地聚集并自适应地上下文化判别性特征。MogaNet展现出卓越的可扩展性、参数效率以及在ImageNet及多个下游视觉任务基准上的竞争力表现,涵盖COCO目标检测、ADE20K语义分割、2D与3D人体姿态估计以及视频预测等任务。值得注意的是,MogaNet在ImageNet-1K数据集上分别以520万和1810万参数实现了80.0%和87.8%的准确率,显著优于ParC-Net与ConvNeXt-L,同时分别减少了59%的浮点运算量(FLOPs)和1700万参数。相关源代码已开源,地址为:https://github.com/Westlake-AI/MogaNet。

MogaNet:多阶门控聚合网络 | 最新论文 | HyperAI超神经