S$^2$-FPN:スケールウェアストリップアテンションを用いた特徴ピラミッドネットワークによるリアルタイム意味分割

近年の高性能な意味的セグメンテーション手法では、豊富な特徴情報を抽出するため、重いバックボーンネットワークと拡張畳み込み(dilated convolution)が用いられている。特に、文脈情報と意味情報を両方含む特徴を効果的に抽出することは、セグメンテーションタスクにおいて極めて重要であるが、その一方で、リアルタイム応用においてはメモリ使用量と計算コストが著しく増大するという課題がある。本論文では、リアルタイム道路シーンの意味的セグメンテーションにおいて、精度と処理速度のバランスを最適化する新しいモデルを提案する。具体的には、軽量型ネットワークとして「スケール認識型ストリップアテンション誘導型特徴ピラミッドネットワーク(Scale-aware Strip Attention Guided Feature Pyramid Network, S²-FPN)」を設計した。本ネットワークは、3つの主要モジュールから構成される:アテンションピラミッド融合モジュール(Attention Pyramid Fusion, APF)、スケール認識型ストリップアテンションモジュール(Scale-aware Strip Attention Module, SSAM)、およびグローバル特徴アップサンプリングモジュール(Global Feature Upsample, GFU)。APFモジュールはアテンション機構を用いて、識別性の高いマルチスケール特徴を学習し、異なるレベル間の意味的ギャップを縮小する。また、APFは垂直方向のストリッピング操作を用いたスケール認識アテンションにより、グローバルな文脈情報をエンコードし、長距離依存性をモデル化することで、類似した意味ラベルを持つピクセル同士の関係性を強化する。さらに、チャネルワイズ再重み付けブロック(Channel-wise Reweighting Block, CRB)を導入し、重要なチャネル特徴を強調する。最後に、S²-FPNのデコーダはGFUモジュールを採用し、APFモジュールとエンコーダから得られた特徴を効果的に融合する。本手法は、2つの困難な意味的セグメンテーションベンチマーク上で広範な実験を実施し、さまざまなモデル設定において優れた精度/速度のトレードオフを達成することが示された。Cityscapesデータセットでは、76.2%mIoU/87.3FPS、77.4%mIoU/67FPS、77.8%mIoU/30.5FPSの性能を達成した。CamVidデータセットでは、69.6%mIoU、71.0%mIoU、74.2%mIoUの結果を得た。本研究のコードは、https://github.com/mohamedac29/S2-FPN にて公開される予定である。