2ヶ月前

RGB-D画像から豊富な特徴を学習して物体検出とセグメンテーションを行う

Saurabh Gupta; Ross Girshick; Pablo Arbeláez; Jitendra Malik
RGB-D画像から豊富な特徴を学習して物体検出とセグメンテーションを行う
要約

本論文では、RGB-D画像における物体検出問題を、意味的に豊かな画像と深度特徴を使用して研究しています。私たちは新しい地心座標埋め込み(geocentric embedding)を提案しており、これにより各ピクセルの地上高と重力との角度に加えて水平視差が符号化されます。実験結果から、この地心座標埋め込みは、畳み込みニューラルネットワークによる特徴表現学習において、生の深度画像よりも優れていることが示されました。私たちの最終的な物体検出システムは平均精度37.3%を達成しており、既存手法に対して56%の相対的な改善となっています。次に、インスタンスセグメンテーションというタスクに焦点を当てます。このタスクでは、私たちの検出器によって見つかった物体インスタンスに属するピクセルをラベリングします。このため、形状と地心姿勢特徴を照会する一連の単項および二項テストを使用して、検出ウィンドウ内のピクセルを前景または背景として分類する決定木アプローチを提案しています。最後に、既存のスーパーピクセル分類フレームワークを用いて意味的なシーンセグメンテーションを行い、私たちが研究した物体カテゴリーについて現在の最先端技術に対して24%の相対的な改善を達成しました。私たちは、本論文中で示されたような進歩がロボティクスなどの分野での知覚利用を促進すると考えています。