Command Palette
Search for a command to run...

摘要
缩放定律已验证了大规模数据训练模型在文本、图像和视频等模态的创造性生成任务中所取得的成功与潜力。然而,该范式在三维(3D)领域面临数据稀缺的问题,因为互联网上可用的三维数据远少于上述模态。值得庆幸的是,存在大量蕴含常识先验信息的视频数据,可作为替代的监督信号,以缓解因原生3D数据有限而导致的泛化瓶颈问题。一方面,捕捉物体或场景多视角的视频为3D生成提供了空间一致性先验;另一方面,视频中丰富的语义信息使得生成内容能够更忠实于文本提示,并具备更强的语义合理性。本文探讨了如何将视频模态应用于3D资产生成,涵盖数据集构建到模型设计的全过程。我们提出了Droplet3D-4M,这是首个具有多视角层级标注的大规模视频数据集,并训练了Droplet3D模型——一个支持图像输入与密集文本输入的生成模型。大量实验验证了所提方法的有效性,证明其能够生成具有空间一致性且语义合理的三维内容。此外,与当前主流的3D生成方案相比,我们的方法展现出向场景级应用扩展的潜力。这表明,视频中蕴含的常识先验信息对3D内容创作具有显著促进作用。我们已开源全部资源,包括数据集、代码、技术框架及模型权重:https://dropletx.github.io/。