17 天前
MOAT:交替使用移动卷积与注意力机制构建强大的视觉模型
Chenglin Yang, Siyuan Qiao, Qihang Yu, Xiaoding Yuan, Yukun Zhu, Alan Yuille, Hartwig Adam, Liang-Chieh Chen

摘要
本文提出MOAT,一个基于移动卷积(即倒置残差块)与注意力机制(Attention)构建的神经网络家族。与现有方法中将移动卷积模块与Transformer模块独立堆叠的做法不同,我们创造性地将二者深度融合,形成一种新型的MOAT模块。具体而言,以标准Transformer模块为基础,我们将其中的多层感知机(MLP)替换为移动卷积模块,并将其前置至自注意力计算之前。该移动卷积模块不仅显著提升了网络的表征能力,还能够生成更具优势的下采样特征。尽管MOAT架构设计概念简洁,但其性能出人意料地出色:在ImageNet-1K和ImageNet-1K-V2数据集上,借助ImageNet-22K预训练,分别取得了89.1%和81.5%的Top-1准确率。此外,MOAT可通过将全局注意力机制简单替换为窗口注意力机制,无缝适配需要高分辨率输入的下游任务。得益于移动卷积在像素间高效传递局部信息(从而实现跨窗口的信息交互),MOAT无需引入额外的窗口移位(window shifting)机制。在COCO目标检测任务中,MOAT在仅使用227M参数、单尺度推理和硬NMS(Hard NMS)的情况下,达到了59.2%的框AP(box AP);在ADE20K语义分割任务中,使用496M参数时,取得了57.6%的mIoU(平均交并比)。此外,通过简单减小通道数得到的tiny-MOAT系列模型,同样在ImageNet上显著优于多个专为移动端设计的基于Transformer的模型。tiny-MOAT系列还在多个下游任务中进行了基准测试,可作为社区研究的基准模型。我们希望这一结构简洁而高效的MOAT架构,能够激发更多关于卷积与自注意力机制深度融合的探索。相关代码已公开,供学术界和工业界自由使用。