17 天前
MatteFormer:基于先验Token的Transformer图像抠图
GyuTae Park, SungJoon Son, JaeYoung Yoo, SeHo Kim, Nojun Kwak

摘要
本文提出了一种基于Transformer的图像抠图模型——MatteFormer,该模型充分利用了Trimap信息在Transformer模块中的作用。我们的方法首先引入了一种先验令牌(prior-token),用以表示每个Trimap区域(如前景、背景和未知区域)的全局特征表示。这些先验令牌作为全局先验信息,参与每一层的自注意力机制。编码器的每一阶段均由PAST(Prior-Attentive Swin Transformer)模块构成,该模块基于Swin Transformer模块,但在以下几个方面有所改进:1)引入了PA-WSA(Prior-Attentive Window Self-Attention)层,该层在执行自注意力时不仅考虑空间令牌(spatial-tokens),还融合了先验令牌;2)设计了先验记忆(prior-memory)机制,能够累积前序模块中的先验令牌,并将其传递至下一模块。我们在常用的图像抠图数据集Composition-1k和Distinctions-646上对MatteFormer进行了评估,实验结果表明,所提出的方法在性能上显著优于现有方法,达到了当前最先进的水平。相关代码已开源,可访问 https://github.com/webtoon/matteformer。