17日前

DAT++:変形 Attention を備えた空間動的 Vision Transformer

Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang
DAT++:変形 Attention を備えた空間動的 Vision Transformer
要約

Transformerは、さまざまな視覚タスクにおいて優れた性能を示している。その大きな受容field(受容領域)により、Transformerモデルは従来のCNN(畳み込みニューラルネットワーク)と比較して、より高い表現力を持つことが可能である。しかし、単に受容領域を拡大するだけでは、いくつかの課題が生じる。まず、ViT(Vision Transformer)では密なアテンションを用いるため、メモリおよび計算コストが著しく増大する。また、関心領域(Region of Interest)から離れた不関係な領域の特徴が影響を及ぼす可能性がある。一方で、PVTやSwin Transformerで採用される手動設計のアテンションはデータに依存せず、長距離依存関係をモデル化する能力を制限する可能性がある。このジレンマを解決するために、本研究では新たな可変的マルチヘッドアテンションモジュールを提案する。このモジュールでは、自己アテンションにおけるキーとバリューの位置が、データに応じて適応的に配置される。この柔軟な設計により、提案する可変アテンションは、関連する領域に動的に注目しつつも、グローバルアテンションの表現力は維持することができる。この基盤の上に、視覚認識に効率的かつ効果的な汎用的な視覚バックボーンとして「可変アテンションTransformer(Deformable Attention Transformer, DAT)」を構築した。さらに、性能を強化した拡張版DAT++も開発した。広範な実験の結果、DAT++は複数の視覚認識ベンチマークにおいて最先端の性能を達成し、ImageNetでは85.9%の精度、MS-COCOのインスタンスセグメンテーションではmAP 54.5および47.0、ADE20KのセマンティックセグメンテーションではmIoU 51.5を達成した。

DAT++:変形 Attention を備えた空間動的 Vision Transformer | 最新論文 | HyperAI超神経