8 个月前

摘要

从单张RGB图像生成逼真的3D人类模型仍然是计算机视觉领域的一个挑战性任务，因为它需要精确建模几何结构、高质量纹理以及合理的不可见部分。现有的方法通常使用多视角扩散模型进行3D生成，但这些方法经常面临视角不一致的问题，这阻碍了高质量3D人类模型的生成。为了解决这一问题，我们提出了一种新的方法——Human-VDM，该方法利用视频扩散模型从单张RGB图像生成3D人类模型。Human-VDM通过高斯点绘（Gaussian Splatting）技术为3D人类生成提供时间上一致的视角。该方法由三个模块组成：视角一致的人类视频扩散模块、视频增强模块和高斯点绘模块。首先，单张图像被输入到人类视频扩散模块中，以生成连贯的人类视频。接下来，视频增强模块应用超分辨率和视频插值技术来提升生成视频的纹理质量和几何平滑度。最后，3D人类高斯点绘模块在这些高分辨率且视角一致的图像指导下学习生成逼真的3D人类模型。实验结果表明，Human-VDM能够从单张图像生成高质量的3D人类模型，在生成质量和数量上均优于现有最先进方法。项目页面：https://human-vdm.github.io/Human-VDM/

源 PDF