6 个月前

摘要

指定区域的3D局部编辑在游戏产业与机器人交互领域至关重要。现有方法通常通过编辑多视角渲染图像，再重建3D模型，但在精确保留未编辑区域及整体一致性方面面临挑战。受结构化3D生成模型的启发，我们提出VoxHammer——一种无需训练的新方法，可在3D隐空间中实现精确且一致的编辑。给定一个3D模型，VoxHammer首先预测其反演轨迹，并在每个时间步获取对应的反演隐变量（inverted latents）与键值令牌（key-value tokens）。随后，在去噪与编辑阶段，我们将保留区域的去噪特征替换为相应的反演隐变量及缓存的键值令牌。通过保留这些上下文特征，该方法确保了未编辑区域的一致性重建，并实现了编辑部分与整体结构的连贯融合。为评估保留区域的一致性，我们构建了Edit3D-Bench——一个由人工标注的基准数据集，包含数百个样本，每个样本均配有精细标注的3D编辑区域。实验结果表明，VoxHammer在保留区域的3D一致性及整体生成质量方面显著优于现有方法。本方法有望用于合成高质量的编辑配对数据，为上下文感知的3D生成任务奠定数据基础。项目主页详见：https://huanngzh.github.io/VoxHammer-Page/。

源 PDF 查看代码