HyperAIHyperAI

Command Palette

Search for a command to run...

協調的な全体的シーン理解:3Dオブジェクト、レイアウト、およびカメラ姿勢推定の統合

Siyuan Huang; Siyuan Qi; Yinxue Xiao; Yixin Zhu; Ying Nian Wu; Song-Chun Zhu

概要

包括的な3D室内シーン理解とは、i) 物体のバウンディングボックス、ii) 部屋のレイアウト、iii) カメラの姿勢を3次元で同時に復元することを指します。既存の手法は、効果が不十分であるか、または問題を部分的にしか解決していないことが多いです。本論文では、単一のRGB画像のみから入力し、リアルタイムで上記3つのタスクを同時に解くエンドツーエンドモデルを提案します。提案手法の本質は、i) 目標(例:3Dボックス)を直接推定する代わりに目標をパラメータ化することで予測精度を向上させることと、ii) 個別にこれらのモジュールを訓練するのではなく異なるモジュール間での協調訓練を行うことです。具体的には、3D物体バウンディングボックスを複数のモジュールからの予測によりパラメータ化します。つまり、3Dカメラ姿勢と物体属性からの予測を使用します。提案手法は以下の2つの主要な利点があります:i) パラメータ化は2D画像と3D世界との一貫性を維持し、3次元座標における予測変動を大幅に削減します。ii) パラメータ化に対して制約を課すことで異なるモジュールを同時に訓練することができます。これらの制約は「協調損失」と呼ばれ、共同訓練と推論を可能にします。我々は3Dバウンディングボックス、2D投影、物理的制約のために3つの協調損失を使用して、幾何学的に一貫性があり物理的に妥当な3Dシーンを見積もります。SUN RGB-Dデータセット上の実験結果から、提案手法が既存手法よりも3D物体検出、3Dレイアウト推定、3Dカメラ姿勢推定および包括的なシーン理解において著しく優れていることが示されました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています