2日前

SceneGen：1回のフォワードパスによる単一画像からの3Dシーン生成

Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie

要約

3Dコンテンツ生成は、VR/ARおよびエンボディドAI（身体化AI）における応用が注目される中、近年、大きな研究関心を寄せられている。本研究では、1枚のシーン画像内に複数の3Dアセットを合成するという困難なタスクに取り組む。具体的には、以下の4つの貢献を示す：（i）シーン画像と対応するオブジェクトマスクを入力として受け取り、形状とテクスチャを同時に生成する新しいフレームワーク「SceneGen」を提案する。特に、SceneGenは最適化やアセットの検索を必要とせず、直接出力を行う点が特徴である；（ii）視覚的および幾何学的エンコーダーから得られる局所的およびグローバルなシーン情報を統合する新規な特徴集約モジュールを導入する。このモジュールと位置予測ヘッドを組み合わせることで、1回のフォワードパスで3Dアセットとそれらの相対的な空間位置を同時に生成可能となる；（iii）SceneGenが単一画像入力に限らず、複数画像入力のシナリオへ直接拡張可能であることを示す。本モデルは単一画像入力のみで訓練されているにもかかわらず、アーキテクチャの設計により、複数画像入力に対してより優れた生成性能を発揮することができる；（iv）広範な定量的および定性的評価により、本手法の効率性および堅牢な生成能力が確認された。本研究のアプローチは、高品質な3Dコンテンツ生成における新たな解決策を提供すると考えられ、今後の応用タスクにおける実用化に貢献する可能性がある。コードおよびモデルは、以下のURLで公開される予定である：https://mengmouxu.github.io/SceneGen。