
Transformerは、モダリティ、ドメイン、タスクを問わず、急速に最も広く応用される深層学習アーキテクチャの一つとなりつつある。視覚分野においては、単純なTransformerへの継続的な研究に加え、階層型Transformerもその性能と既存フレームワークへの容易な統合性から、大きな注目を集めている。これらのモデルは通常、スライディングウィンドウ型の局所的アテンション機構、例えばネイバーhood Attention(NA)やSwin Transformerのシフトウィンドウ自己アテンション(Shifted Window Self Attention)を採用している。これらは自己アテンションの二次時間複雑度を効果的に低減するが、同時に自己アテンションの最も望ましい性質の2つ——長距離間依存性のモデリング、およびグローバルな受容野の獲得——を弱体化させるという課題を抱えている。本論文では、NAの自然で柔軟かつ効率的な拡張として、より広範なグローバルな文脈を捉え、受容野を追加コストなしに指数関数的に拡大可能な「拡張ネイバーhoodアテンション(Dilated Neighborhood Attention, DiNA)」を提案する。NAの局所的アテンションとDiNAのスパースなグローバルアテンションは相補的であり、それらを統合した新たな階層型視覚Transformerである「拡張ネイバーhoodアテンションTransformer(DiNAT)」を構築した。DiNATのバリエーションは、NAT、Swin、ConvNeXtといった強力なベースラインに対して顕著な性能向上を達成している。大規模モデルでは、Swinと比較してCOCO物体検出(1.6%のbox AP向上)、COCOインスタンスセグメンテーション(1.4%のmask AP向上)、ADE20Kセマンティックセグメンテーション(1.4%のmIoU向上)において優れた性能を発揮する。新たなフレームワークと組み合わせることで、大規模バージョンはCOCO(58.5 PQ)およびADE20K(49.4 PQ)におけるパノプティックセグメンテーションの新しいSOTAモデルとなり、Cityscapes(45.1 AP)およびADE20K(35.4 AP)におけるインスタンスセグメンテーションでもSOTAを達成(追加データなし)。また、ADE20Kにおける専用セマンティックセグメンテーションモデルと同等の性能(58.1 mIoU)を達成し、Cityscapesでは2位(84.5 mIoU)にランクイン(追加データなし)。