DeBiFormer:変形可能エージェント二段階ルーティング注意機構を備えた視覚Transformer

さまざまなアテンションモジュールを備えたビジョントランスフォーマーは、視覚タスクにおいて優れた性能を示している。特に、DATのようなスパースティ適応型アテンションを用いることで、画像分類において高い成果が得られている。しかし、セマンティックセグメンテーションタスクへの微調整において、変形可能なポイントによって選択されるキー・バリュー対は、意味的な関連性を欠く傾向がある。BiFormerにおけるクエリ意識型スパースティアテンションは、各クエリが上位k個のルーティング領域に注目するよう設計されているが、アテンション計算の過程で選択されたキー・バリュー対は、関係のない多数のクエリの影響を受けるため、より重要な領域に対する注目度が低下してしまう。こうした問題に対処するため、本研究では「変形可能二段階ルーティングアテンション(Deformable Bi-level Routing Attention: DBRA)」モジュールを提案する。このモジュールはエージェントクエリを用いてキー・バリュー対の選択を最適化し、アテンションマップにおけるクエリの解釈可能性を向上させる。このDBRAモジュールを基盤として、本研究では新たな汎用的ビジョントランスフォーマー「変形可能二段階ルーティングアテンショントランスフォーマー(Deformable Bi-level Routing Attention Transformer: DeBiFormer)」を構築した。DeBiFormerは、画像分類、オブジェクト検出、セマンティックセグメンテーションといった多様なコンピュータビジョンタスクにおいて検証され、その有効性を強く示している。コードは以下のリンクから入手可能である:{https://github.com/maclong01/DeBiFormer}