
残差接続における深さ劣化(depth degradation)の影響により、情報交換のために層の積み重ねに依存する多くの効率的なビジョントランスフォーマーモデルは、十分な情報混合が実現できず、不自然な視覚的認識を引き起こすことがしばしばある。本論文では、この問題に対処するため、生物学的側頭視(foveal vision)および連続的な眼球運動を模倣するバイオミメティック設計に基づくトークンミキサー「Aggregated Attention」を提案する。この手法により、特徴マップ上の各トークンがグローバルな視覚認識を持つことが可能となる。さらに、従来のクエリとキーと相互作用する学習可能なトークンを導入することで、クエリとキー間の類似性に依存するだけでなく、アフィニティ行列の生成をさらに多様化している。本手法は層の積み重ねによる情報交換に依存しないため、深さ劣化を効果的に回避し、自然な視覚認識を実現する。また、GLUとSE機構の間のギャップを埋めるチャネルミキサーとして「Convolutional GLU」を提案する。これにより、各トークンは周囲の画像特徴と最も近い隣接領域に基づいたチャネルアテンションを持つことができ、局所的なモデリング能力およびモデルのロバスト性が向上する。Aggregated AttentionとConvolutional GLUを統合することで、新たな視覚バックボーン「TransNeXt」を構築した。広範な実験により、本手法は複数のモデルサイズにおいて最先端の性能を達成することが示された。解像度 $224^2$ において、TransNeXt-TinyはImageNet精度84.0%を達成し、パラメータ数がConvNeXt-Bの69%削減されたにもかかわらず、それを上回る性能を発揮した。また、解像度 $384^2$ において、TransNeXt-BaseはImageNet精度86.2%、ImageNet-A精度61.6%、COCOオブジェクト検出のmAP 57.1、ADE20KセマンティックセグメンテーションのmIoU 54.7を達成した。