Command Palette
Search for a command to run...
Chuan Fang Heng Li Yixun Liang Jia Zheng Yongsen Mao Yuan Liu Rui Tang Zihan Zhou Ping Tan

要約
インテリア環境の高精細3Dモデルの作成は、設計、仮想現実、ロボティクスなどの分野において不可欠である。しかし、手動による3Dモデリングは依然として時間と労力がかかる。近年の生成AIの進展により、自動的なシーン合成が可能になったものの、既存の手法は視覚的品質、多様性、意味的整合性、ユーザーの制御性のバランスを取ることに課題を抱えている。大きな障壁となっているのは、このタスクに特化した大規模かつ高品質なデータセットの不足である。この課題を解決するため、本研究では12,328の構造化アノテーション付きシーン(合計57,440室)と470万枚の写実的な2Dレンダリングを含む包括的な合成データセットを提案する。このデータセットを活用し、空間的一貫性を保ちつつ、任意の視点から外観(カラー画像)、幾何形状(シーン座標マップ)、意味情報(セマンティックセグメンテーションマップ)を生成する、新たなマルチビュー・マルチモーダル拡散モデル「SpatialGen」を提示する。3Dレイアウトと参照画像(テキストプロンプトから導出)を入力として、空間的整合性を維持しながら、リアルで意味的に整合した3Dインテリアシーンを合成する。実験において、SpatialGenは従来手法に比べて一貫して優れた結果を達成した。本研究では、データセットおよびモデルをオープンソースとして公開することで、インテリアシーンの理解と生成に関する分野の発展を促進し、研究コミュニティの活性化を図る。