11日前

PerspectiveNet：1枚のRGB画像からの視点点を用いた3Dオブジェクト検出

Siyuan Huang, Yixin Chen, Tao Yuan, Siyuan Qi, Yixin Zhu, Song-Chun Zhu

要約

単一のRGB画像から3次元物体を検出することは本質的に曖昧であるため、2次元画像平面と3次元世界座標系との間に一貫性を確保し、不確実性を低減するためには適切な事前知識および中間表現を制約条件として用いる必要がある。本研究では、この課題に対処するため、物体の位置を特定するための新たな中間表現として「透視点（perspective points）」を導入する。透視点とは、局所的なマンハッタン3次元キーポイントの2次元透視投影として定義されるものであり、透視投影によって課される幾何学的制約を満たす。さらに、本研究では、単一のRGB画像から物体ごとに2次元バウンディングボックス、2次元透視点、および3次元物体バウンディングボックスを同時に推定可能な、エンドツーエンドで学習可能なモデル「PerspectiveNet」を提案する。PerspectiveNetは以下の3つの特長を持つ：(i) 3次元物体バウンディングボックスは透視点に基づいて推定されるため、カテゴリ固有の3次元形状事前知識を必要とせずに、2次元と3次元バウンディングボックスのギャップを埋めることができる。(ii) 透視点はテンプレートベースの手法により予測され、透視制約を維持するための透視損失（perspective loss）が定式化されている。(iii) 微分可能な射影関数を用いて、2次元透視点と3次元バウンディングボックスの間に一貫性を保つ。SUN RGB-Dデータセットにおける実験結果から、本手法が従来のRGBベースの3次元物体検出手法を顕著に上回ることが示された。