面向增强的图像修复:缓解无关对象插入问题并保持颜色一致性

近年来,图像修复(image inpainting)技术越来越多地采用生成模型来处理大范围、不规则的掩码区域。然而,这类模型仍存在两个主要问题,导致修复结果不够真实:(1)非预期对象插入:即使图像中存在未被掩码的上下文区域,生成模型仍可能在掩码区域内生成与整体图像不一致的任意对象,造成视觉上的不合理;(2)色彩不一致:修复区域常出现明显的色彩偏移,导致图像呈现模糊或涂抹感,严重影响视觉质量。虽然重新训练生成模型可在一定程度上缓解上述问题,但这一方法成本高昂。当前最先进的基于潜在空间的扩散模型(latent-based diffusion models)与修正流模型(rectified flow models)通常需要经历三阶段训练流程:首先训练变分自编码器(VAE),然后训练生成用的U-Net或Transformer网络,最后针对修复任务进行微调。为此,本文提出一种后处理方法,命名为ASUKA(Aligned Stable inpainting with UnKnown Areas prior),旨在无需重新训练即可显著提升现有修复模型的性能。为解决非预期对象插入问题,ASUKA引入基于重建的先验机制,利用掩码自编码器(Masked Auto-Encoder, MAE)对图像结构进行约束,有效抑制对象幻觉,同时保留模型原有的生成能力。为应对色彩不一致问题,本文设计了一种专用的VAE解码器,将潜在空间到图像的解码过程建模为局部调和(local harmonization)任务,显著减少了色彩偏移,实现更一致的色彩表现。我们在SD 1.5和FLUX系列的修复模型上验证了ASUKA的有效性,实验使用了Places2数据集以及本文提出的多样化数据集MISATO。实验结果表明,相较于标准的扩散模型与修正流模型,以及现有其他修复方法,ASUKA在抑制对象幻觉和提升色彩一致性方面均表现出显著优势,显著提升了修复图像的视觉质量与真实性。