Command Palette
Search for a command to run...
Chuan Fang Heng Li Yixun Liang Jia Zheng Yongsen Mao Yuan Liu Rui Tang Zihan Zhou Ping Tan

摘要
构建高保真的室内环境三维模型对于设计、虚拟现实和机器人等领域至关重要。然而,传统的手工三维建模仍耗时且劳动强度大。尽管生成式人工智能的最新进展已实现场景的自动化合成,但现有方法在视觉质量、多样性、语义一致性以及用户控制之间往往难以取得平衡。其中一大瓶颈在于缺乏大规模、高质量的专用数据集。为填补这一空白,我们提出一个全面的合成数据集,包含12,328个结构化标注场景,共计57,440个房间,以及470万张逼真的二维渲染图像。基于该数据集,我们提出SpatialGen——一种新颖的多视角、多模态扩散模型,能够生成逼真且语义一致的室内三维场景。给定一个三维布局和一张参考图像(由文本提示生成),该模型可从任意视角合成外观(彩色图像)、几何结构(场景坐标图)和语义信息(语义分割图),同时在不同模态间保持空间一致性。在实验中,SpatialGen始终优于先前的方法。我们已将数据集和模型开源,以赋能研究社区,推动室内场景理解与生成领域的发展。