7 个月前

摘要

最新的基于深度学习的方法在图像修复这一具有挑战性的任务中展示了令人鼓舞的结果。然而，现有的方法通常会生成纹理模糊和结构扭曲的内容，这是由于局部像素的不连续性所致。从语义层面来看，局部像素不连续性主要是因为这些方法忽略了孔洞区域的语义相关性和特征连续性。为了解决这一问题，我们研究了人类在修复图片时的行为，并提出了一种基于精细深度生成模型的方法，该方法引入了一个新颖的连贯语义注意力（Coherent Semantic Attention, CSA）层，不仅能够保留上下文结构，还能通过建模孔洞特征之间的语义相关性来更有效地预测缺失部分。我们将任务分为粗略修复和精炼修复两个步骤，并在U-Net架构下用神经网络分别对每个步骤进行建模，其中CSA层嵌入到精炼步骤的编码器中。为了稳定网络训练过程并促进CSA层学习更有效的参数，我们提出了一致性损失函数，以同时强制CSA层及其对应的解码器中的CSA层接近真实图像的VGG特征层。实验结果表明，在CelebA、Places2和Paris StreetView数据集上，我们提出的方法在图像修复任务中具有有效性，并且与现有最先进的方法相比，能够获得质量更高的图像。

源 PDF