11日前
単一の画像からのインプライド表現を用いた包括的な3Dシーン理解
Cheng Zhang, Zhaopeng Cui, Yinda Zhang, Bing Zeng, Marc Pollefeys, Shuaicheng Liu

要約
単一画像から包括的な3Dシーン理解を実現するための新しいパイプラインを提案する。本手法は、物体の形状、物体の姿勢、シーンのレイアウトを予測可能である。この問題は非常に不適切な定式化(ill-posed)であるため、従来の手法は特にオブジェクト間の重度な遮蔽が生じる混雑したシーンにおいて、形状およびレイアウトの推定精度が低下するという課題を抱えている。本研究では、最新の深層暗黙表現(deep implicit representation)を活用することでこの課題を解決する。まず、画像に基づく局所構造化暗黙ネットワークを提案し、物体形状の推定精度を向上させる。さらに、物体の局所的暗黙特徴を活用する新たな暗黙的シーングラフニューラルネットワークを導入することで、3D物体の姿勢およびシーンレイアウトの精緻化を実現する。また、物体間の物理的に不整合な関係を回避するため、新規の物理的違反損失(physical violation loss)を提案している。広範な実験により、本手法が物体形状推定、シーンレイアウト推定、3D物体検出の各分野において、最先端の手法を上回ることを実証した。