HyperAIHyperAI

Command Palette

Search for a command to run...

MatteFormer:Prior-Tokensを用いたTransformerベースの画像マットイング

GyuTae Park SungJoon Son JaeYoung Yoo SeHo Kim Nojun Kwak

概要

本稿では、トランスフォーマー構造を活用した画像マッティングモデルであるMatteFormerを提案する。本手法は、トランスフォーマーブロック内でトリマップ情報の情報を最大限に活用する点が特徴である。まず、各トリマップ領域(前景、背景、未知領域など)のグローバル表現である「プライオリティトークン(prior-token)」を導入する。これらのプライオリティトークンはグローバルな事前知識として機能し、各ブロックの自己注意機構(self-attention mechanism)に参加する。エンコーダーの各段階は、Swinトランスフォーマーに基づくが、以下の点で異なるPAST(Prior-Attentive Swin Transformer)ブロックで構成されている:1)PA-WSA(Prior-Attentive Window Self-Attention)層を備え、空間トークン(spatial-tokens)に加えてプライオリティトークンとも自己注意を実行する。2)前のブロックから蓄積的に保持したプライオリティトークンを保存する「プライオリティメモリ(prior-memory)」を有し、これを次のブロックへ伝達する。本手法は、広く用いられている画像マッティングデータセットであるComposition-1kおよびDistinctions-646で評価された。実験結果から、提案手法が大幅な性能向上を達成し、最先端の性能を実現することが示された。本研究の実装コードは、https://github.com/webtoon/matteformer にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています