2 个月前

BlenderFusion:基于3D的视觉编辑与生成合成

Chen, Jiacheng, Mehran, Ramin, Jia, Xuhui, Xie, Saining, Woo, Sanghyun
BlenderFusion:基于3D的视觉编辑与生成合成
摘要

我们介绍了BlenderFusion,这是一种生成性的视觉合成框架,通过重组物体、摄像机和背景来合成新的场景。该框架遵循分层-编辑-合成的流程:(i) 将视觉输入分割并转换为可编辑的3D实体(分层),(ii) 在Blender中使用基于3D的控制进行编辑(编辑),以及 (iii) 使用生成性合成器将它们融合成一个连贯的场景(合成)。我们的生成性合成器扩展了一个预训练的扩散模型,使其能够并行处理原始(源)场景和编辑后的(目标)场景。它在视频帧上进行了微调,并采用了两种关键的训练策略:(i) 源遮罩,实现灵活的修改如背景替换;(ii) 模拟对象抖动,便于对物体和摄像机进行解耦控制。BlenderFusion在复杂的组合场景编辑任务中显著优于先前的方法。