17日前

MatteFormer：Prior-Tokensを用いたTransformerベースの画像マットイング

GyuTae Park, SungJoon Son, JaeYoung Yoo, SeHo Kim, Nojun Kwak

要約

本稿では、トランスフォーマー構造を活用した画像マッティングモデルであるMatteFormerを提案する。本手法は、トランスフォーマーブロック内でトリマップ情報の情報を最大限に活用する点が特徴である。まず、各トリマップ領域（前景、背景、未知領域など）のグローバル表現である「プライオリティトークン（prior-token）」を導入する。これらのプライオリティトークンはグローバルな事前知識として機能し、各ブロックの自己注意機構（self-attention mechanism）に参加する。エンコーダーの各段階は、Swinトランスフォーマーに基づくが、以下の点で異なるPAST（Prior-Attentive Swin Transformer）ブロックで構成されている：1）PA-WSA（Prior-Attentive Window Self-Attention）層を備え、空間トークン（spatial-tokens）に加えてプライオリティトークンとも自己注意を実行する。2）前のブロックから蓄積的に保持したプライオリティトークンを保存する「プライオリティメモリ（prior-memory）」を有し、これを次のブロックへ伝達する。本手法は、広く用いられている画像マッティングデータセットであるComposition-1kおよびDistinctions-646で評価された。実験結果から、提案手法が大幅な性能向上を達成し、最先端の性能を実現することが示された。本研究の実装コードは、https://github.com/webtoon/matteformer にて公開されている。