HyperAIHyperAI

Command Palette

Search for a command to run...

CrossViT:用于图像分类的交叉注意力多尺度视觉Transformer

Chun-Fu Chen Quanfu Fan Rameswar Panda

摘要

近年来发展的视觉Transformer(Vision Transformer, ViT)在图像分类任务上相比卷积神经网络(CNN)取得了令人瞩目的成果。受此启发,本文研究了如何在Transformer模型中学习多尺度特征表示以提升图像分类性能。为此,我们提出了一种双分支Transformer架构,通过融合不同尺寸的图像块(即Transformer中的token)来生成更具表现力的图像特征。该方法采用两条独立分支分别处理小尺寸块和大尺寸块的token,两条分支具有不同的计算复杂度,随后通过多次纯注意力机制进行特征融合,实现互补增强。为进一步降低计算开销,我们设计了一种简单而高效的token融合模块,基于交叉注意力机制,每个分支仅使用一个代表性token作为查询,与其他分支进行信息交互。该交叉注意力机制在计算和内存复杂度上均仅需线性时间,而非传统方法的二次方时间。大量实验表明,我们的方法在性能上优于或媲美多个同期提出的视觉Transformer模型,同时在计算效率上也优于主流的高效CNN模型。例如,在ImageNet1K数据集上,经过少量架构调整后,我们的方法在仅带来少量至中等程度的浮点运算量(FLOPs)和模型参数增加的情况下,显著超越了近期的DeiT模型,性能提升达2%。相关源代码与预训练模型已公开,可访问:\url{https://github.com/IBM/CrossViT}


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供