18 天前

X-volution：卷积与自注意力机制的统一

Xuanhong Chen, Hang Wang, Bingbing Ni

摘要

卷积与自注意力机制是深度神经网络中的两大基础构建模块：前者以线性方式提取局部图像特征，后者则非局部地编码高阶上下文关系。尽管二者在本质上具有互补性（分别对应一阶与高阶特征建模），但当前主流架构（如CNN或Transformer）由于计算模式异构，且在视觉任务中全局点积运算带来过重的计算负担，尚缺乏一种系统化的方法，将这两种操作在单一计算模块中协同应用。本文从理论上推导出一种全局自注意力的近似方案，该方案通过在变换后的特征上施加卷积操作，实现对自注意力机制的有效近似。基于此近似方法，我们构建了一个包含卷积与自注意力双重分支的通用基础模块，能够统一建模局部与非局部特征交互。尤为重要的是，该多分支模块在训练完成后，可通过结构重参数化（structural re-parameterization）条件性地转化为单一标准卷积操作，从而生成一种纯卷积风格的运算单元，命名为X-volution。该模块可作为原子操作无缝嵌入任意现代神经网络架构中。大量实验表明，所提出的X-volution在视觉理解任务中展现出卓越性能：在ImageNet图像分类任务上实现+1.2%的Top-1准确率提升；在COCO目标检测与分割任务中分别取得+1.7%的Box AP与+1.5%的Mask AP提升，验证了其在兼顾高效性与表达能力方面的显著优势。