
摘要
近年来,基于数据驱动的图像修复(image inpainting)方法取得了令人瞩目的进展,显著推动了物体移除、受损图像修复等基础图像编辑任务的发展。与传统方法相比,这些方法在修复效果上更具优势,但由于内存限制,通常只能处理分辨率较低的输入图像,普遍小于1K。然而,当前移动设备拍摄的图像分辨率已提升至8K。若对低分辨率修复结果进行简单的上采样,仅能得到一个尺寸大但模糊的结果。而通过在模糊的大图像上叠加高频残差(high-frequency residual)图像,则可生成细节丰富、纹理清晰的高质量修复结果。受此启发,我们提出了一种上下文残差聚合(Contextual Residual Aggregation, CRA)机制。该机制通过加权聚合来自上下文区域补丁的残差信息,自动生成缺失内容的高频残差,从而仅需网络输出低分辨率的修复结果即可完成高质量重建。由于神经网络中的卷积层仅需在低分辨率输入与输出上运行,因此显著降低了内存占用与计算开销。此外,该方法也缓解了对高分辨率训练数据集的依赖。在实验中,我们仅在512×512的小尺寸图像上训练模型,并在高分辨率图像上进行推理,仍取得了极具竞争力的修复效果。所提模型可成功处理高达8K分辨率、且包含较大缺失区域的图像修复任务,这一能力在以往基于学习的方法中难以实现。此外,我们进一步优化了网络架构设计,实现了轻量化结构,在GTX 1080 Ti GPU上即可实现2K图像的实时推理性能。相关代码已开源,地址为:Atlas200dk/sample-imageinpainting-HiFill。