
要約
私たちは、リアルタイムのインスタンスセグメンテーションを実現する単純な完全畳み込みモデルを提案します。このモデルは、単一のTitan Xp上で評価された際、MS COCOで29.8 mAPを達成し、33.5 fpsの速度を実現しています。これは、以前の競合するアプローチよりも著しく高速です。さらに、この結果は単一のGPUでの学習後に得られています。私たちはこれを達成するために、インスタンスセグメンテーションを2つの並列サブタスクに分割しました:(1) プロトタイプマスクの生成と (2) インスタンスマスク係数の予測です。その後、これらのプロトタイプマスクとマスク係数を線形結合することで、インスタンスマスクを生成します。この過程がリプーリングに依存しないため、非常に高品質なマスクが生成されるとともに、時間的な安定性も自然に得られることを見出しました。さらに、私たちのプロトタイプの出現行動を分析し、完全畳み込みであるにもかかわらず、翻訳変動性(translation variant)を持つ方法でインスタンスを独自に局所化することを学習していることを示しました。最後に、標準的なNMSの代わりとなるFast NMSも提案します。これは12ミリ秒速い置き換えであり、性能への影響は僅かなものに過ぎません。