PixelHacker:具有结构和语义一致性的图像修复
Ziyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang
发布日期: 5/7/2025

摘要
图像修复是图像编辑和图像生成之间的一个基础研究领域。近期的最先进(SOTA)方法探索了新颖的注意力机制、轻量级架构和上下文感知建模,展示了令人印象深刻的效果。然而,这些方法在处理复杂结构(如纹理、形状、空间关系)和语义(如颜色一致性、物体恢复和逻辑正确性)时往往遇到困难,导致出现伪影和不适当的生成结果。为了解决这一挑战,我们设计了一种简单而有效的图像修复范式,称为潜在类别引导,并进一步提出了一种基于扩散模型的方法,命名为PixelHacker。具体而言,我们首先通过标注前景和背景构建了一个包含1400万张图像-掩码对的大规模数据集(前景和背景分别有116个和21个潜在类别)。然后,我们通过两个固定大小的嵌入分别编码潜在的前景和背景表示,并通过线性注意力机制间歇地将这些特征注入去噪过程中。最后,通过对我们的数据集进行预训练并在开源基准上微调,我们获得了PixelHacker。大量实验表明,PixelHacker在多个数据集(包括Places2、CelebA-HQ和FFHQ)上全面超越了最先进方法,并在结构和语义方面表现出显著的一致性。项目页面:https://hustvl.github.io/PixelHacker。