
我々は、視覚領域におけるトークン間相互作用をモデル化する際に、自己注意機構(Self-Attention, SA)を完全に代替する「焦点調制ネットワーク(FocalNets)」を提案する。Focal調制は以下の3つの構成要素からなる:(i) 階層的コンテキスト表現(hierarchical contextualization)— 深さ方向畳み込み層のスタックにより、短距離から長距離にわたる視覚的コンテキストを段階的にエンコードする。(ii) ゲート付き集約(gated aggregation)— 各クエリトークンの内容に基づいて、関連するコンテキストを選択的に集約する。(iii) 要素単位の調制(element-wise modulation)またはアフィン変換— 集約されたコンテキストをクエリに注入する。広範な実験により、FocalNetsが計算コストと同等の水準で、画像分類、物体検出、セグメンテーションの各タスクにおいて、最先端のSAベースモデル(例:Swin Transformer、Focal Transformer)を上回ることが示された。特に、TinyおよびBaseサイズのFocalNetは、ImageNet-1Kでそれぞれ82.3%および83.9%のトップ1精度を達成した。ImageNet-22Kで224ピクセル解像度で事前学習後、224および384ピクセルの解像度で微調整した場合、トップ1精度はそれぞれ86.5%および87.3%に達した。下流タスクへの転移性能においても、FocalNetは顕著な優位性を示した。Mask R-CNNを用いた物体検出では、1×スケジュールで学習したFocalNet BaseがSwinを2.1ポイント上回り、3×スケジュールで学習したSwin(49.0 vs. 48.5)を既に上回った。UPerNetを用いたセマンティックセグメンテーションでは、単一スケールでFocalNet BaseがSwinを2.4ポイント上回り、マルチスケールでは50.5対49.7で優位を保った。LargeサイズのFocalNetとMask2Formerを組み合わせることで、ADE20Kのセマンティックセグメンテーションで58.5 mIoUを達成し、COCOのパノプティックセグメンテーションでは57.9 PQを記録した。さらに、HugeサイズのFocalNetとDINOを用いることで、COCO minivalおよびtest-devでそれぞれ64.3および64.4 mAPを達成し、Swinv2-GやBEIT-3などより大きな自己注意ベースモデルを上回る新たなSOTAを確立した。コードおよびチェックポイントは、https://github.com/microsoft/FocalNet にて公開されている。