
要約
多くのインスタンスセグメンテーションモデルは、事前処理として提案領域推定(RPN)を組み込むか、後処理として非最大値抑制(NMS)を用いるため、エンドツーエンドでの学習が困難である。本研究では、新しいエンドツーエンド型インスタンスセグメンテーション手法であるISDAを提案する。本手法は、物体のマスク集合を予測する形にタスクを再定式化しており、学習可能な位置意識型カーネルと物体特徴量を用いた従来の畳み込み演算によってマスクを生成する。これらのカーネルおよび特徴量は、多スケール表現を活用した可変アテンションネットワークにより学習される。導入されたセット予測メカニズムにより、本手法はNMSを必要としない。実験的に、ISDAはMS-COCOデータセットにおいて強力なベースラインであるMask R-CNNを2.6ポイント上回り、最近のモデルと比較しても最先端の性能を達成している。コードは近日中に公開予定である。