17 天前

自适应拆分-融合Transformer

Zixuan Su, Hao Zhang, Jingjing Chen, Lei Pang, Chong-Wah Ngo, Yu-Gang Jiang
自适应拆分-融合Transformer
摘要

近年来,用于视觉内容理解的神经网络已从传统的卷积神经网络(CNN)演进至基于Transformer的架构。前者依赖于小窗口卷积核捕捉局部区域特征,展现出优异的局部表达能力;而后者则通过建立局部区域间的长程全局关联,实现整体性学习。受二者互补特性的启发,学术界日益关注设计混合模型,以充分融合两类方法的优势。然而,现有的混合模型大多仅以线性投影的简单近似替代卷积操作,或简单地将卷积分支与注意力分支并列,未能充分考虑局部建模与全局建模的重要性。针对这一问题,本文提出一种新型混合架构——自适应分路融合Transformer(Adaptive Split-Fusion Transformer, ASF-former),通过自适应权重机制差异化地处理卷积分支与注意力分支。具体而言,ASF-former编码器将输入特征通道均分为两路,分别送入卷积分支与注意力分支;随后,利用视觉线索动态计算加权标量,对两路输出进行融合。同时,为兼顾计算效率,我们对卷积分支进行了紧凑化设计。在ImageNet-1K、CIFAR-10和CIFAR-100等标准基准上的大量实验表明,在相似计算复杂度(12.9G MACs / 56.7M 参数,无需大规模预训练)条件下,ASF-former在准确率上显著优于同类CNN、Transformer模型以及现有混合模型,其中在ImageNet-1K上达到83.9%的Top-1准确率。相关代码已开源,地址为:https://github.com/szx503045266/ASF-former。