
我々は、単純でありながら効率的なアンカーなしのインスタンスセグメンテーション手法であるCenterMaskを提案します。この手法では、Mask R-CNNと同様に、アンカーなしの一段階オブジェクト検出器(FCOS)に新しい空間注意誘導マスク(SAG-Mask)ブランチを追加します。FCOSオブジェクト検出器に組み込まれたSAG-Maskブランチは、各ボックスに対して分割マスクを予測し、情報量のあるピクセルに焦点を当てるとともにノイズを抑制する空間注意マップを使用します。また、VoVNetV2という改良されたバックボーンネットワークも提示します。VoVNetV2には以下の2つの効果的な戦略が採用されています:(1) 大きなVoVNet \cite{lee2019energy} の最適化問題を軽減するための残差接続と、(2) 元のSqueeze-Excitation (SE) におけるチャネル情報損失問題に対処するための効果的なSqueeze-Excitation (eSE)です。SAG-MaskとVoVNetV2を用いて、大型モデル向けのCenterMaskと小型モデル向けのCenterMask-Liteを設計しました。同じResNet-101-FPNバックボーンを使用した場合、CenterMaskは38.3%の精度を達成し、従来の最先端手法全てを超えるとともに、大幅に高速な処理速度を実現しています。また、Titan Xp上で35fps以上の速度で動作するCenterMask-Liteも、従来の最先端手法に対して大きな性能向上を示しています。我々は、CenterMaskがリアルタイムインスタンスセグメンテーションの堅固なベースラインとなり、VoVNetV2が様々なビジョンタスクにおけるバックボーンネットワークとして活用されることを期待しています。コードはhttps://github.com/youngwanLEE/CenterMaskで入手可能です。