
摘要
近期研究已表明,在图像修复(inpainting)任务中建模长距离依赖关系具有重要意义。为实现这一目标,现有方法通常采用独立的注意力机制或Transformer结构,但为控制计算成本,往往局限于低分辨率输入。本文提出一种新型基于Transformer的模型,用于大孔洞图像修复,该模型融合了Transformer与卷积网络的优势,能够高效处理高分辨率图像。我们精心设计了框架中的各个组件,以确保恢复图像在保真度和多样性方面均达到优异表现。具体而言,我们设计了一种面向图像修复任务的Transformer模块,其中注意力机制仅从由动态掩码指示的有效部分token中聚合非局部信息。大量实验结果表明,该模型在多个基准数据集上均达到了当前最优性能。代码已开源,地址为:https://github.com/fenglinglwb/MAT。