
要約
私たちは、オブジェクトのインスタンスセグメンテーションのために、概念的に単純で柔軟かつ一般的なフレームワークを提示します。当該アプローチは、画像内のオブジェクトを効率的に検出しながら、各インスタンスに対して高品質なセグメンテーションマスクを同時に生成します。この手法はMask R-CNNと呼ばれ、Faster R-CNNに物体マスク予測の支流を追加することで拡張されています。これは既存のバウンディングボックス認識の支流と並行して動作します。Mask R-CNNは訓練が簡単であり、Faster R-CNNにわずかな負荷しか加えず、5 fpsで動作します。さらに、Mask R-CNNは他のタスクへの汎化も容易で、例えば同じフレームワーク内で人間の姿勢推定を行うことが可能です。COCOチャレンジの3つのトラック全てにおいてトップクラスの結果を示しています。これらにはインスタンスセグメンテーション、バウンディングボックスオブジェクト検出、および人物キーポイント検出が含まれます。特別な工夫を施すことなく、Mask R-CNNはすべてのタスクで既存の単一モデルエントリを上回り、COCO 2016チャレンジの勝者たちも含めています。私たちはこの単純かつ効果的なアプローチが堅固なベースラインとなり、インスタンスレベル認識に関する今後の研究を促進することを期待しています。コードは以下のURLから入手可能です: https://github.com/facebookresearch/Detectron