Jiaxiang Tang Zhaoxi Chen Xiaokang Chen Tengfei Wang Gang Zeng Ziwei Liu

摘要
三维内容生成在质量和速度方面均取得了显著进展。尽管当前的前馈模型能够在数秒内生成三维物体,但其分辨率受限于训练过程中所需的大量计算。本文提出了一种名为大视图高斯模型(Large Multi-View Gaussian Model, LGM)的新框架,能够根据文本提示或单视图图像生成高分辨率三维模型。我们的核心思想包含两点:1)三维表征:我们提出采用多视图高斯特征作为高效且强大的三维表示方法,该表示可进一步融合以实现可微分渲染;2)三维主干网络:我们设计了一种非对称U-Net结构作为高吞吐量的主干网络,作用于多视图图像,这些多视图图像可通过多视图扩散模型从文本或单视图图像输入中生成。大量实验验证了本方法在保真度与效率方面的优越性。特别地,我们在保持生成三维物体速度低于5秒的同时,将训练分辨率提升至512,从而实现了高分辨率三维内容的高效生成。