2ヶ月前

単一のRGB画像からの全体的な3Dシーン解析と再構築

Siyuan Huang; Siyuan Qi; Yixin Zhu; Yinxue Xiao; Yuanlu Xu; Song-Chun Zhu
単一のRGB画像からの全体的な3Dシーン解析と再構築
要約

私たちは、単一のRGB画像を解析し、確率文法モデルを使用してCADモデルの集合から構成される全体的な3D構成を再構築するための計算フレームワークを提案します。特に、3Dシーン構造を表現するために全场景文法(Holistic Scene Grammar, HSG)を導入します。このHSGは、屋内シーンの機能空間と幾何空間における同時分布を特徴付けます。提案されたHSGは、屋内シーンの3つの重要な潜在次元を捉えています:i) 潜在的な人間のコンテキスト、部屋配置の操作可能性と機能性を説明するもの、ii) シーン構成上の幾何制約、iii) 物理的に妥当な解析と再構築を保証する物理制約です。この同時解析と再構築問題は、分析による合成(analysis-by-synthesis)アプローチで解決します。具体的には、入力画像と私たちの3D表現によって生成されたレンダリング画像との差異を最小化することを目指し、深度、表面法線ベクトル、オブジェクトセグメンテーションマップの空間上で最適化を行います。最適な構成はパースグラフで表され、マルコフ連鎖モンテカルロ法(Markov Chain Monte Carlo, MCMC)を使用して推論されます。これにより効率的に非微分可能な解空間を探索し、オブジェクト位置特定、3Dレイアウト、および潜在的な人間のコンテキストについて同時に最適化が行われます。実験結果は、提案アルゴリズムが一般化能力を向上させることを示しており、3Dレイアウト推定、3Dオブジェクト検出、全场景理解において既存手法よりも著しく優れていることが確認されました。

単一のRGB画像からの全体的な3Dシーン解析と再構築 | 最新論文 | HyperAI超神経