17日前
3D-RCNN:Render-and-Compareを用いたインスタンスレベル3Dオブジェクト再構成
{Abhijit Kundu, Yin Li, James M. Rehg}

要約
本稿では、インスタンスレベルの3Dシーン理解を実現する高速な逆画像処理フレームワークを提案する。我々は、画像領域を画像内に存在するすべてのオブジェクトインスタンスの3D形状および姿勢にマッピングする深層畳み込みネットワークを学習する。本手法により、シーンのコンパクトな3D表現が得られ、自動運転などの応用に即座に利用可能となる。従来の2Dビジョン出力(例:インスタンスセグメンテーションや深度マップ)は、単に本手法の出力3Dシーンモデルをレンダリングするだけで容易に得られる。また、CADモデルの集合から低次元の形状空間を学習することで、クラス固有の形状事前知識を活用する。さらに、より優れた3D等価性(3D equivariance)と汎化性能を実現することを目指した、形状および姿勢の新しい表現形式を提案する。2Dアノテーション(セグメンテーションなど)から得られる豊富な教師信号を有効に活用するため、3D形状および姿勢を2Dの監視信号に基づいて学習可能とする、微分可能な「レンダリング・アンド・コンペア」損失関数を提案する。本手法は、Pascal3D+およびKITTIという実世界の挑戦的なデータセット上で評価され、最先端の性能を達成した。