
要約
空間プーリングは、シーン解析などのピクセル単位の予測タスクにおいて、長距離の文脈情報を効果的に捉えることが実証されており、高い有効性が示されている。本論文では、従来の空間プーリングが通常正方形のNxN形状を採用しているのに対し、1×NまたはN×1という細長く長いカーネルを考慮する新しいプーリング戦略「ストリッププーリング(strip pooling)」を導入することで、空間プーリングの定式化を見直す。ストリッププーリングを基盤として、以下の3つの観点から空間プーリングアーキテクチャの設計を検討する:1)バックボーンネットワークが長距離依存関係を効率的にモデル化できる新しいストリッププーリングモジュールの導入、2)多様な空間プーリングを核とする新しい構成ブロックの提案、3)提案手法であるストリッププーリングと従来の空間プーリング技術の性能を体系的に比較。これらの新規プーリングに基づく設計はいずれも軽量であり、既存のシーン解析ネットワークに効率的なプラグアンドプレイモジュールとして統合可能である。ADE20KやCityscapesなど、代表的なベンチマーク上での広範な実験により、本手法がシンプルでありながら新たなSOTA(最先端)性能を達成することが示された。コードは https://github.com/Andrew-Qibin/SPNet にて公開されている。