17 天前

Twins：重新审视视觉Transformer中的空间注意力设计

Xiangxiang Chu, Zhi Tian, Yuqing Wang, Bo Zhang, Haibing Ren, Xiaolin Wei, Huaxia Xia, Chunhua Shen

摘要

近期，针对密集预测任务，多种视觉Transformer架构相继被提出，这些研究均表明空间注意力机制的设计在实现优异性能中起着关键作用。在本工作中，我们重新审视了空间注意力机制的设计，并证明：一种经过精心设计但结构简单的空间注意力机制，在性能上可显著优于当前最先进的方案。基于此，我们提出了两种新的视觉Transformer架构——Twins-PCPVT与Twins-SVT。所提出的架构具有高度高效性且易于实现，仅包含矩阵乘法操作，而这类运算在现代深度学习框架中已得到高度优化。更重要的是，该架构在多种视觉任务上均取得了卓越性能，涵盖图像级分类以及密集目标检测与分割任务。其简洁的设计与出色的性能表现表明，所提出的架构有望成为众多视觉任务中更强大的骨干网络。相关代码已开源，地址为：https://github.com/Meituan-AutoML/Twins。