
要約
画像からの物体検出問題を、非常に大規模だが極めて疎なバウンディングボックス依存の確率分布の推定として定義します。その後、疎な分布推定手法であるディレクテッド・スパース・サンプリング(Directed Sparse Sampling)を特定し、これを単一のエンドツーエンドCNNベースの検出モデルに適用します。この手法は、高評価速度と手動エンジニアリングの削減に重点を置いた最新の検出モデルを拡張および形式化します。私たちは2つの新規性を導入します。すなわち、コーナーベースの関心領域推定器と、逆畳み込みに基づくCNNモデルです。得られたモデルはシーン適応型であり、手動で定義された参考バウンディングボックスを必要とせず、MSCOCO、Pascal VOC 2007、Pascal VOC 2012においてリアルタイム評価速度で非常に競争力のある結果を示します。さらに分析した結果、当モデルは細かい物体位置特定が望まれる場合に特に優れた性能を発揮することがわかりました。この優位性は、他の方法と比較して利用可能な関心領域の数が著しく多いことから来ていると考えられます。ソースコードは以下のURLから入手可能です: https://github.com/lachlants/denet