
要約
我々は、単一のTitan Xp上でMS COCOを評価した際、競合する結果を得るリアルタイム(>30 fps)インスタンスセグメンテーションのためのシンプルで完全畳み込み型モデルを提示します。これは、これまでの最先端アプローチよりも大幅に高速です。さらに、この結果は単一のGPUでの学習後に得られています。これを達成するために、インスタンスセグメンテーションを2つの並列サブタスクに分割しました:(1) プロトタイプマスクの生成と (2) インスタンスごとのマスク係数の予測です。その後、これらのプロトタイプとマスク係数を線形結合することでインスタンスマスクを生成します。このプロセスがリプーリングに依存しないため、非常に高品質なマスクが生成されるとともに、時間的な安定性も自然に得られます。また、我々はプロトタイプの出現行動を分析し、完全畳み込み型であるにもかかわらず、翻訳変動性を持つ方法でインスタンスを自己局在化する能力があることを示しました。さらに、標準NMSの代わりとなるFast NMSという12ミリ秒速い置き換え手法を提案しており、その性能低下は僅かなものです。最後に、バックボーンネットワークにデフォーム可能な畳み込みを取り入れることで、より良いアンカースケールやアスペクト比を使用して予測ヘッドを最適化し、新しい高速マスク再スコアリングブランチを追加することにより、YOLACT++モデルはMS COCOで34.1 mAP(平均精度)を33.5 fpsで達成できます。これはリアルタイム処理を行いつつも最先端アプローチに近い性能となっています。