7日前

DaViT:デュアルアテンションビジョントランスフォーマー

Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang, Lu Yuan
DaViT:デュアルアテンションビジョントランスフォーマー
要約

本研究では、グローバルな文脈を捉えつつ計算効率を維持できる、シンプルでありながら有効な視覚変換器アーキテクチャである「デュアルアテンション・ビジョン変換器(DaViT)」を提案する。我々は、この問題に直交的な視点からアプローチする:空間トークンとチャネルトークンの両方を用いた自己アテンション機構を活用する。空間トークンでは、空間次元がトークンの範囲を定義し、チャネル次元がトークンの特徴次元を定義する。一方、チャネルトークンでは逆に、チャネル次元がトークンの範囲を定義し、空間次元がトークンの特徴次元を定義する。さらに、空間トークンおよびチャネルトークンの両方について、シーケンス方向にトークンをグループ化することで、モデル全体の計算複雑度を線形に保つ。我々は、これらの二つの自己アテンションが互いに補完的であることを示す:(i) 各チャネルトークンは画像全体の抽象的表現を含むため、チャネル間のアテンションスコアを計算する際、すべての空間位置を考慮することで、自然にグローバルな相互作用と表現を捉えることができる;(ii) 空間アテンションは空間位置間の細粒度な相互作用により局所表現を精緻化し、その結果、チャネルアテンションにおけるグローバル情報のモデリングを支援する。広範な実験により、DaViTが4つの異なるタスクにおいて最先端の性能を達成し、計算効率も高いことを確認した。追加データを用いない条件下で、DaViT-Tiny、DaViT-Small、DaViT-Baseは、それぞれ28.3M、49.7M、87.9MのパラメータでImageNet-1Kにおいて82.8%、84.2%、84.6%のトップ1精度を達成した。さらに、15億個の弱教師付き画像・テキストペアを用いてDaViTを拡張したDaViT-Gaintは、ImageNet-1Kで90.4%のトップ1精度を達成した。コードは https://github.com/dingmyu/davit にて公開されている。

DaViT:デュアルアテンションビジョントランスフォーマー | 最新論文 | HyperAI超神経