
摘要
近年来,Transformer 模型已成为计算机视觉任务的事实标准模型,并已成功应用于阴影去除。然而,现有的方法在很大程度上依赖于对 Transformer 块内注意力机制的复杂修改,同时使用通用的补丁嵌入(patch embedding)。这通常导致复杂的架构设计,需要额外的计算资源。在这项工作中,我们旨在探索在早期处理阶段融入阴影信息的有效性。为此,我们提出了一种基于 Transformer 的框架,该框架包含一种专为阴影去除设计的新颖补丁嵌入方法,称为 ShadowMaskFormer。具体而言,我们介绍了一种简单有效的掩码增强补丁嵌入(mask-augmented patch embedding)方法,以整合阴影信息并促进模型对阴影区域知识的获取。我们在 ISTD、ISTD+ 和 SRD 基准数据集上进行了广泛的实验,结果表明我们的方法在使用较少模型参数的情况下优于现有最先进方法。我们的实现代码可在 https://github.com/lizhh268/ShadowMaskFormer 获取。