2ヶ月前

CenterSnap: 単一ショットによる多物体3D形状再構成とカテゴリ6D姿勢・サイズ推定

Irshad, Muhammad Zubair ; Kollar, Thomas ; Laskey, Michael ; Stone, Kevin ; Kira, Zsolt
CenterSnap: 単一ショットによる多物体3D形状再構成とカテゴリ6D姿勢・サイズ推定
要約

本論文では、単一視点のRGB-D観測から同時多物体3次元再構成、6次元姿勢推定およびサイズ推定という複雑なタスクを研究しています。インスタンスレベルの姿勢推定とは異なり、我々は推論時にCADモデルが利用できないより困難な問題に焦点を当てています。既存の手法は主に複雑なマルチステージパイプラインを採用しており、まず画像内の各物体インスタンスを局所化および検出し、その後その3次元メッシュまたは6次元姿勢を回帰します。これらの手法は、遮蔽が存在する複雑な多物体シナリオにおいて計算コストが高く、性能が低いという問題があります。したがって、我々は境界ボックスを使用せずに3次元形状と6次元姿勢およびサイズを同時に予測する単純なワンステージアプローチを提案します。特に、我々の手法では物体インスタンスを空間的な中心として扱い、各中心は物体の完全な形状とその6次元姿勢およびサイズを示します。このピクセルごとの表現により、我々の手法はリアルタイム(40 FPS)で複数の新しい物体インスタンスを再構成し、それらの6次元姿勢とサイズを単一の順方向パスで予測することができます。広範囲にわたる実験を通じて、我々は多物体ShapeNetデータセットにおける形状補完基準とNOCSデータセットにおけるカテゴリ別の6次元姿勢とサイズ推定基準に対して、新しい実世界物体インスタンスに対する6次元姿勢のmAPで12.6%の絶対的な改善を達成していることを示しています。