
摘要
尽管基于逆向的编辑技术取得了近期进展,但扩散模型在文本引导的图像操作方面仍面临挑战。主要瓶颈包括:1)逆向过程耗时较长;2)难以平衡一致性与准确性;3)与一致性模型中使用的高效一致性采样方法兼容性不足。为了解决上述问题,我们首先思考是否可以在编辑过程中消除逆向步骤。研究表明,当初始样本已知时,特定的方差调度可以将去噪步骤简化为多步一致性采样的形式。我们将这种方法命名为去噪扩散一致性模型(Denoising Diffusion Consistent Model, DDCM),并指出它意味着一种虚拟逆向策略,而无需在采样过程中进行显式的逆向操作。我们进一步在一个无调优框架内统一了注意力控制机制,以实现文本引导的编辑。结合这些技术,我们提出了无逆向编辑(Inversion-free Editing, InfEdit),该方法能够在保持图像完整性和避免显式逆向的同时,实现刚性和非刚性语义变化的一致且忠实的编辑,满足复杂的修改需求。通过广泛的实验验证,InfEdit 在各种编辑任务中表现出色,并且保持了无缝的工作流程(单个A40 GPU上处理时间少于3秒),展示了其在实时应用中的潜力。项目页面:https://sled-group.github.io/InfEdit/