17 天前

MatteFormer：基于先验Token的Transformer图像抠图

GyuTae Park, SungJoon Son, JaeYoung Yoo, SeHo Kim, Nojun Kwak

摘要

本文提出了一种基于Transformer的图像抠图模型——MatteFormer，该模型充分利用了Trimap信息在Transformer模块中的作用。我们的方法首先引入了一种先验令牌（prior-token），用以表示每个Trimap区域（如前景、背景和未知区域）的全局特征表示。这些先验令牌作为全局先验信息，参与每一层的自注意力机制。编码器的每一阶段均由PAST（Prior-Attentive Swin Transformer）模块构成，该模块基于Swin Transformer模块，但在以下几个方面有所改进：1）引入了PA-WSA（Prior-Attentive Window Self-Attention）层，该层在执行自注意力时不仅考虑空间令牌（spatial-tokens），还融合了先验令牌；2）设计了先验记忆（prior-memory）机制，能够累积前序模块中的先验令牌，并将其传递至下一模块。我们在常用的图像抠图数据集Composition-1k和Distinctions-646上对MatteFormer进行了评估，实验结果表明，所提出的方法在性能上显著优于现有方法，达到了当前最先进的水平。相关代码已开源，可访问 https://github.com/webtoon/matteformer。