18 天前

X-volution:卷积与自注意力机制的统一

Xuanhong Chen, Hang Wang, Bingbing Ni
X-volution:卷积与自注意力机制的统一
摘要

卷积与自注意力机制是深度神经网络中的两大基础构建模块:前者以线性方式提取局部图像特征,后者则非局部地编码高阶上下文关系。尽管二者在本质上具有互补性(分别对应一阶与高阶特征建模),但当前主流架构(如CNN或Transformer)由于计算模式异构,且在视觉任务中全局点积运算带来过重的计算负担,尚缺乏一种系统化的方法,将这两种操作在单一计算模块中协同应用。本文从理论上推导出一种全局自注意力的近似方案,该方案通过在变换后的特征上施加卷积操作,实现对自注意力机制的有效近似。基于此近似方法,我们构建了一个包含卷积与自注意力双重分支的通用基础模块,能够统一建模局部与非局部特征交互。尤为重要的是,该多分支模块在训练完成后,可通过结构重参数化(structural re-parameterization)条件性地转化为单一标准卷积操作,从而生成一种纯卷积风格的运算单元,命名为X-volution。该模块可作为原子操作无缝嵌入任意现代神经网络架构中。大量实验表明,所提出的X-volution在视觉理解任务中展现出卓越性能:在ImageNet图像分类任务上实现+1.2%的Top-1准确率提升;在COCO目标检测与分割任务中分别取得+1.7%的Box AP与+1.5%的Mask AP提升,验证了其在兼顾高效性与表达能力方面的显著优势。

X-volution:卷积与自注意力机制的统一 | 最新论文 | HyperAI超神经