9 天前

面向高保真图像补全的全局上下文交互融合

Chuanxia Zheng, Tat-Jen Cham, Jianfei Cai, Dinh Phung

摘要

正确建模全局上下文交互对于大掩码下的高保真图像修复至关重要。以往通过深度网络或大感受野（Receptive Field, RF）卷积实现该目标的方法，难以摆脱邻近区域交互的主导影响，可能导致性能受限。本文提出将图像修复任务视为一种无方向性的序列到序列预测问题，并引入Transformer架构以在编码器中直接捕捉长程依赖关系。关键在于，我们采用一种感受野小且非重叠的约束性CNN来生成加权的图像标记表示，使Transformer能够在所有网络层中均等且显式地建模远距离可见上下文之间的关系，而不会因使用较大感受野而导致邻近标记的隐式混淆。为进一步提升可见区域与生成区域之间的外观一致性，本文提出一种新颖的注意力感知层（Attention-Aware Layer, AAL），以更有效地利用远距离相关高频特征。大量实验结果表明，所提方法在多个数据集上均显著优于现有最先进方法。