
要約
われわれは画像内の特定のカテゴリのすべてのインスタンスを検出し、それぞれのインスタンスに対して該当するピクセルをマークすることを目指しています。このタスクを同時検出とセグメンテーション(Simultaneous Detection and Segmentation: SDS)と呼びます。古典的なバウンディングボックス検出とは異なり、SDSではセグメンテーションが必要であり、単なる箱だけでなく物体の形状を捉える必要があります。また、古典的な意味セグメンテーションとは異なり、個々のオブジェクトインスタンスを区別する必要があります。本研究では、最近の領域提案に対するカテゴリに依存しない分類を行う畳み込みニューラルネットワーク(R-CNN [16])を使用した研究に基づき、SDSに特化した新しいアーキテクチャを導入します。さらに、上位から下位へのカテゴリ固有のフィギュア-グラウンド予測を使用して、下位からの提案を洗練します。実験結果として、基準モデルよりもSDSで7ポイント(相対的に16%)、意味セグメンテーションで5ポイント(相対的に10%)の性能向上が確認されました。また、オブジェクト検出において最先端の性能を達成しました。最後に、性能解析ツールを提供し、今後の研究方向性を示唆しています。