7ヶ月前

概要

包括的な3D室内シーン理解とは、i) 物体のバウンディングボックス、ii) 部屋のレイアウト、iii) カメラの姿勢を3次元で同時に復元することを指します。既存の手法は、効果が不十分であるか、または問題を部分的にしか解決していないことが多いです。本論文では、単一のRGB画像のみから入力し、リアルタイムで上記3つのタスクを同時に解くエンドツーエンドモデルを提案します。提案手法の本質は、i) 目標（例：3Dボックス）を直接推定する代わりに目標をパラメータ化することで予測精度を向上させることと、ii) 個別にこれらのモジュールを訓練するのではなく異なるモジュール間での協調訓練を行うことです。具体的には、3D物体バウンディングボックスを複数のモジュールからの予測によりパラメータ化します。つまり、3Dカメラ姿勢と物体属性からの予測を使用します。提案手法は以下の2つの主要な利点があります：i) パラメータ化は2D画像と3D世界との一貫性を維持し、3次元座標における予測変動を大幅に削減します。ii) パラメータ化に対して制約を課すことで異なるモジュールを同時に訓練することができます。これらの制約は「協調損失」と呼ばれ、共同訓練と推論を可能にします。我々は3Dバウンディングボックス、2D投影、物理的制約のために3つの協調損失を使用して、幾何学的に一貫性があり物理的に妥当な3Dシーンを見積もります。SUN RGB-Dデータセット上の実験結果から、提案手法が既存手法よりも3D物体検出、3Dレイアウト推定、3Dカメラ姿勢推定および包括的なシーン理解において著しく優れていることが示されました。

ソースPDF