2ヶ月前
深層学習と幾何学を用いた3Dバウンディングボックス推定
Arsalan Mousavian; Dragomir Anguelov; John Flynn; Jana Kosecka

要約
単一画像からの3D物体検出と姿勢推定の方法を提案します。現在の技術が物体の3D向きのみを回帰するのに対し、当方法はまず深層畳み込みニューラルネットワークを使用して比較的安定した3D物体特性を回帰し、次にこれらの推定値と2D物体バウンディングボックスによって提供される幾何学的制約を組み合わせて完全な3Dバウンディングボックスを生成します。最初のネットワーク出力は、新しいハイブリッド離散-連続損失関数を使用して3D物体向きを推定し、これはL2損失関数よりも大幅に優れた性能を示します。2番目の出力は、他の特性と比べて変動が少ない3D物体寸法を回帰し、多くの物体タイプに対して予測することができます。これらの推定値と2Dバウンディングボックスによる翻訳の幾何学的制約を組み合わせることで、安定したかつ正確な3D物体姿勢を得ることができます。当方法は概念的には単純ですが、セマンティックセグメンテーション、インスタンスレベルセグメンテーション、平坦地面事前情報およびサブカテゴリ検出を利用するより複雑で計算コストが高い手法よりも優れた性能を示しています。また、Pascal 3D+データセットにおける3D視点推定においても、当方法の離散-連続損失関数は最先端の結果を生み出しています。我々はこの手法を困難なKITTI物体検出ベンチマークで評価しました。評価には公式指標である3D向き推定精度だけでなく、得られた3Dバウンディングボックスの精度も含まれています。