HyperAIHyperAI

Command Palette

Search for a command to run...

TransNeXt:面向视觉Transformer的鲁棒中心凹视觉感知

Dai Shi

摘要

由于残差连接中的深度退化效应,许多依赖堆叠层进行信息交互的高效视觉Transformer模型往往难以实现充分的信息混合,从而导致视觉感知不自然。为解决这一问题,本文提出一种基于仿生设计的令牌混合机制——聚合注意力(Aggregated Attention),该机制模拟生物视网膜中央凹视觉与连续眼动过程,使特征图上的每个令牌(token)均具备全局感知能力。此外,我们引入可学习令牌,使其与传统的查询(query)和键(key)进行交互,从而在生成亲和矩阵时突破仅依赖查询与键之间相似性的局限,进一步丰富了注意力机制的表达能力。本方法不依赖堆叠结构进行信息交换,有效避免了深度退化问题,实现了更自然的视觉感知。同时,本文提出卷积门控线性单元(Convolutional GLU),一种新型通道混合机制,旨在弥合传统GLU与SE(Squeeze-and-Excitation)模块之间的差距。该机制使每个令牌能够基于其最近邻图像特征实现通道注意力,显著增强了模型的局部建模能力与鲁棒性。我们将聚合注意力与卷积GLU相结合,构建了一种全新的视觉主干网络——TransNeXt。大量实验证明,TransNeXt在多种模型规模下均达到当前最优性能。在 2242224^22242 分辨率下,TransNeXt-Tiny模型在ImageNet上取得了84.0%的准确率,相较于参数量多出69%的ConvNeXt-B,性能更优;在 3842384^23842 分辨率下,TransNeXt-Base模型在ImageNet上达到86.2%的准确率,ImageNet-A上达到61.6%的准确率,COCO目标检测任务上mAP达57.1,ADE20K语义分割任务上mIoU达到54.7,全面超越现有先进模型。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供