
ピクセル単位の回帰は、キーポイントヒートマップやセグメンテーションマスクの推定など、細粒度コンピュータビジョンタスクにおいて最も一般的な問題である。これらの回帰問題は、特に高解像度の入出力に対して長距離依存関係を低計算負荷でモデル化する必要があるため、極めて困難である。これは、高度に非線形なピクセル単位の意味情報を正確に推定する必要があるためである。深層畳み込みニューラルネットワーク(DCNN)におけるアテンション機構は、長距離依存関係の強化に役立つとして広く採用されているが、要素ごとのアテンション(例:Nonlocalブロック)は学習において非常に複雑かつノイズに敏感であり、多くの簡略化されたアテンションハイブリッドは、複数のタスク間の最適な妥協点を追求している。本論文では、高品質なピクセル単位の回帰を実現するための2つの重要な設計を統合した「極化自己アテンション(Polarized Self-Attention: PSA)」ブロックを提案する。(1)極化フィルタリング:チャネルアテンションと空間アテンションの計算において、内部解像度を高さを維持しつつ、対応する次元に沿って入力テンソルを完全に圧縮する。(2)強化:典型的な細粒度回帰タスクの出力分布(例:2次元ガウス分布(キーポイントヒートマップ)、2次元バイノーマル分布(二値セグメンテーションマスク))に直接適合する非線形性を組み込む。PSAは、チャネル単独および空間単独のブランチ内で表現能力を極限まで引き出した結果、そのシーケンシャル構成と並列構成の間で性能差はわずかである。実験結果によると、PSAは標準ベースラインを2〜4ポイント向上させ、2Dポーズ推定およびセマンティックセグメンテーションのベンチマークにおいて、最先端の手法を1〜2ポイント向上させた。