
摘要
我们提出 Tinker,一个通用的高保真三维编辑框架,可在单次输入(one-shot)和少量输入(few-shot)模式下运行,且无需针对每个场景进行微调。与以往需要大量场景级优化以保证多视角一致性或生成数十个一致编辑视图的方法不同,Tinker 仅需一至两张图像即可实现鲁棒且多视角一致的编辑效果。这一能力源于对预训练扩散模型的重新利用,从而激发了其潜在的三维感知能力。为推动该领域的研究,我们构建了首个大规模多视角编辑数据集及其数据处理流程,涵盖多样化的场景与风格。基于该数据集,我们开发出无需场景级训练即可生成多视角一致编辑结果的框架,包含两个创新组件:(1)参考驱动的多视角编辑器:支持精确、基于参考的编辑操作,并确保所有视角间的一致性;(2)任意视角到视频的合成器:利用视频扩散模型中的时空先验,即使在输入稀疏的情况下,也能实现高质量的场景补全与新视角生成。通过大量实验验证,Tinker 显著降低了通用三维内容创作的门槛,在编辑、新视角合成与渲染增强任务上均达到当前最优性能。我们相信,Tinker 是迈向真正可扩展、零样本三维编辑的关键一步。项目主页:https://aim-uofa.github.io/Tinker