17日前

視覚的注意機構ネットワーク

Meng-Hao Guo, Cheng-Ze Lu, Zheng-Ning Liu, Ming-Ming Cheng, Shi-Min Hu
視覚的注意機構ネットワーク
要約

自然言語処理タスク向けに当初設計された自己注意(self-attention)機構は、近年、コンピュータビジョン分野において広範な応用を遂げつつある。しかし、画像の2次元性は、自己注意機構をコンピュータビジョンに適用する上で三つの課題をもたらす。第一に、画像を1次元のシーケンスとして扱うことで、その2次元的な構造が無視される。第二に、計算量が二次関数的(quadratic)に増加するため、高解像度画像に対しては計算コストが非常に高くなる。第三に、空間的な適応性は捉えるものの、チャネル(次元)に関する適応性は無視してしまう。本論文では、これらの短所を回避しつつ、自己注意機構における自己適応性と長距離相関を実現する新しい線形注意機構「大カーネル注意(Large Kernel Attention, LKA)」を提案する。さらに、LKAに基づくニューラルネットワークとして「視覚注意ネットワーク(Visual Attention Network, VAN)」を構築した。極めて単純な構造であるにもかかわらず、VANは画像分類、物体検出、セマンティックセグメンテーション、パノプティックセグメンテーション、姿勢推定など、さまざまなタスクにおいて、同程度のサイズのビジョントランスフォーマー(ViTs)や畳み込みニューラルネットワーク(CNNs)を上回る性能を達成している。例えば、VAN-B6はImageNetベンチマークにおいて87.8%の精度を達成し、パノプティックセグメンテーションでは新たな最良成績(58.2 PQ)を記録した。また、ADE20Kベンチマークにおけるセマンティックセグメンテーションでは、Swin-Tを4%のmIoU(50.1 vs. 46.1)で上回り、COCOデータセットにおける物体検出ではAPが2.6%向上(48.8 vs. 46.2)した。本研究は、コミュニティに新たなアプローチと、シンプルでありながら強力なベースラインを提供するものである。コードは以下のURLで公開されている:https://github.com/Visual-Attention-Network。

視覚的注意機構ネットワーク | 最新論文 | HyperAI超神経