HyperAI超神经

摘要

由于残差连接中的深度退化效应，许多依赖堆叠层进行信息交互的高效视觉Transformer模型往往难以实现充分的信息混合，从而导致视觉感知不自然。为解决这一问题，本文提出一种基于仿生设计的令牌混合机制——聚合注意力（Aggregated Attention），该机制模拟生物视网膜中央凹视觉与连续眼动过程，使特征图上的每个令牌（token）均具备全局感知能力。此外，我们引入可学习令牌，使其与传统的查询（query）和键（key）进行交互，从而在生成亲和矩阵时突破仅依赖查询与键之间相似性的局限，进一步丰富了注意力机制的表达能力。本方法不依赖堆叠结构进行信息交换，有效避免了深度退化问题，实现了更自然的视觉感知。同时，本文提出卷积门控线性单元（Convolutional GLU），一种新型通道混合机制，旨在弥合传统GLU与SE（Squeeze-and-Excitation）模块之间的差距。该机制使每个令牌能够基于其最近邻图像特征实现通道注意力，显著增强了模型的局部建模能力与鲁棒性。我们将聚合注意力与卷积GLU相结合，构建了一种全新的视觉主干网络——TransNeXt。大量实验证明，TransNeXt在多种模型规模下均达到当前最优性能。在 $224^2$ 分辨率下，TransNeXt-Tiny模型在ImageNet上取得了84.0%的准确率，相较于参数量多出69%的ConvNeXt-B，性能更优；在 $384^2$ 分辨率下，TransNeXt-Base模型在ImageNet上达到86.2%的准确率，ImageNet-A上达到61.6%的准确率，COCO目标检测任务上mAP达57.1，ADE20K语义分割任务上mIoU达到54.7，全面超越现有先进模型。

摘要

Dai Shi

摘要

用 AI 构建 AI

HyperAI Newsletters

Dai Shi

摘要

用 AI 构建 AI

HyperAI Newsletters

Dai Shi

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

TransNeXt：面向视觉Transformer的鲁棒中心凹视觉感知

Dai Shi

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

TransNeXt：面向视觉Transformer的鲁棒中心凹视觉感知

Dai Shi

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

TransNeXt：面向视觉Transformer的鲁棒中心凹视觉感知

Dai Shi

摘要

用 AI 构建 AI

HyperAI Newsletters