
摘要
当前最先进的图像修复方法在处理高分辨率图像(如512×512)时,往往会出现结构失真和纹理模糊等问题。其主要挑战源于两个方面:(1)从远距离上下文进行图像内容推理,以及(2)对大面积缺失区域进行细粒度纹理生成。为应对上述挑战,本文提出一种增强型基于生成对抗网络(GAN)的模型,命名为聚合上下文变换生成对抗网络(Aggregated COntextual-Transformation GAN, AOT-GAN)。具体而言,为提升上下文推理能力,AOT-GAN的生成器通过堆叠多个新型的AOT模块构建而成。这些AOT模块能够聚合来自不同感受野的上下文变换信息,从而有效捕捉远距离图像上下文中的关键语义信息,同时保留对上下文推理具有重要意义的丰富局部模式。为改善纹理生成质量,本文在判别器设计中引入了一项定制化的掩码预测任务进行训练。该训练目标迫使判别器能够区分真实图像与生成图像中局部补丁的精细外观特征,从而引导生成器学习生成更清晰、更逼真的纹理细节。在包含180万张高分辨率图像、涵盖365种复杂场景的最具挑战性基准数据集Places2上的大量实验对比表明,AOT-GAN在FID指标上相较当前最优方法实现了38.60%的相对提升,性能显著领先。此外,一项包含30余名参与者的用户研究进一步验证了AOT-GAN在视觉质量上的优越性。我们还将AOT-GAN应用于多个实际应用场景,包括logo去除、人脸编辑和物体移除等。实验结果表明,该模型在真实世界任务中均能生成高质量、自然连贯的修复结果。相关代码与预训练模型已开源,欢迎访问:https://github.com/researchmm/AOT-GAN-for-Inpainting。