3ヶ月前

視覚変換器における局所的・グローバルな相互作用のためのフォーカル自己注意機構

Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Xiyang Dai, Bin Xiao, Lu Yuan, Jianfeng Gao
視覚変換器における局所的・グローバルな相互作用のためのフォーカル自己注意機構
要約

最近、ビジョントランスフォーマー(Vision Transformer)およびその派生モデルは、さまざまなコンピュータビジョンタスクにおいて大きな可能性を示している。自己注意機構(self-attention)を通じて短距離および長距離の視覚的依存関係を捉える能力は、その成功の主な要因とされている。しかし、特に高解像度のビジョンタスク(例:物体検出)において、二次的な計算オーバーヘッドが課題となることも明らかになっている。本論文では、細粒度の局所的相互作用と粗粒度のグローバル相互作用の両方を組み込む新たなメカニズムである「フォーカル自己注意(focal self-attention)」を提案する。この新しいメカニズムにより、各トークンは細かい粒度で近隣の周囲トークンに注目する一方で、粗い粒度で遠方のトークンにも注目するため、短距離および長距離の視覚的依存関係を効率的かつ効果的に捉えることが可能となる。フォーカル自己注意を採用することで、新たなビジョントランスフォーマーのバリエーションとして「フォーカルトランスフォーマー(Focal Transformer)」を提案し、複数の公開画像分類および物体検出ベンチマークにおいて、現在の最先端(SOTA)のビジョントランスフォーマーを上回る優れた性能を達成した。特に、中規模(51.1Mパラメータ)および大規模(89.8Mパラメータ)のフォーカルトランスフォーマーは、224×224解像度におけるImageNet分類タスクで、それぞれ83.5および83.8のTop-1精度を達成した。また、フォーカルトランスフォーマーをバックボーンとして用いることで、標準的な1xおよび3xスケジュールで学習された6種類の物体検出手法において、現在の最先端であるスウィントランスフォーマー(Swin Transformers)に対して一貫して顕著な性能向上を実現した。最大規模のフォーカルトランスフォーマーは、COCO mini-val/test-devでボックスmAPが58.7/58.9、マスクmAPが50.9/51.3を達成し、ADE20Kにおけるセマンティックセグメンテーションでは55.4のmIoUを記録し、最も挑戦的な3つのコンピュータビジョンタスクにおいて新たなSOTAを樹立した。