Command Palette

Search for a command to run...

2 个月前

MV-RAG:检索增强的多视角扩散模型

Yosef Dayani Omer Benishu Sagie Benaim

MV-RAG:检索增强的多视角扩散模型

摘要

文本到3D生成方法通过利用预训练的2D扩散先验,已取得显著进展,能够生成高质量且三维一致的输出。然而,这些方法在处理域外(OOD)或罕见概念时往往表现不佳,导致结果不一致或不准确。为此,我们提出了一种名为MV-RAG的新颖文本到3D生成流程:该方法首先从大规模真实场景2D图像数据库中检索相关2D图像,然后将多视角扩散模型基于这些图像进行条件化,以合成一致且准确的多视角输出。为训练这种基于检索条件的模型,我们设计了一种新颖的混合策略,有效连接结构化的多视角数据与多样化的2D图像集合。具体而言,该策略在多视角数据上进行训练,采用增强的条件视图以模拟检索过程中的变化,用于特定视角的重建;同时,在检索到的真实世界2D图像集合上进行训练,引入一种独特的“保留视图预测”目标:模型通过其他视图预测被保留的视图,从而从2D数据中推断三维一致性。为支持对域外概念的严格评估,我们构建了一个新的、具有挑战性的域外提示数据集。与当前最先进的文本到3D、图像到3D以及个性化基线方法相比,实验结果表明,我们的方法在域外或罕见概念上显著提升了三维一致性、逼真度和文本遵循性,同时在标准基准测试中仍保持具有竞争力的性能。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供