
摘要
图像合成是图像处理中最重要的应用之一。然而,拼接区域与背景之间的不和谐外观会降低图像的质量。因此,我们研究了图像和谐化问题:给定一张拼接图像及其拼接区域的掩码,我们尝试使粘贴区域的“风格”与背景(非拼接区域)相协调。以往的方法主要集中在通过神经网络直接学习这一过程。在本工作中,我们从一个经验观察出发:拼接图像与和谐化结果之间的差异仅存在于拼接区域内,而它们共享相同的语义信息和非拼接区域的外观。因此,为了分别学习掩码区域和其他区域的特征图,我们提出了一种新的注意力模块——空间分离注意力模块(Spatial-S Separated Attention Module, S2AM)。此外,我们在Unet结构的较粗低级特征层中以两种不同的方式插入S2AM,设计了一个新的图像和谐化框架。除了图像和谐化之外,基于之前的观察,我们还迈出了重要的一步,即在没有特定掩码的情况下实现复合图像的和谐化。实验结果表明,所提出的S2AM在我们的任务中表现优于其他最先进的注意力模块。此外,我们通过多个角度的标准展示了我们的模型相对于其他最先进的图像和谐化方法的优势。代码可在https://github.com/vinthony/s2am 获取。