3ヶ月前

TransforMatcher:意味的対応をためのマッチ対マッチアテンション

Seungwook Kim, Juhong Min, Minsu Cho
TransforMatcher:意味的対応をためのマッチ対マッチアテンション
要約

画像間の対応関係を確立することは、視点の違いやクラス内変動による顕著な外観変化が生じる状況下では依然として困難な課題である。本研究では、視覚領域におけるTransformerネットワークの成功を踏まえ、強力な意味的画像対応学習器「TransforMatcher」を提案する。従来の畳み込み型またはアテンションベースの対応手法とは異なり、TransforMatcherは精密な対応位置の推定と動的な修正を実現するため、グローバルな「マッチ対マッチ」アテンションを実行する。密な相関マップに含まれる多数の対応関係を処理するため、グローバルなマッチ対マッチ相互作用を効率的に捉える軽量アテンションアーキテクチャを設計した。また、多チャンネル相関マップを用いた精緻化手法を提案し、単一のスコアではなく、多レベルのスコアを特徴量として扱うことで、階層的な意味情報の豊かさを最大限に活用する。実験の結果、TransforMatcherはSPair-71kデータセットにおいて新たなSOTA(最先端)性能を達成し、PF-PASCALデータセットにおいても既存のSOTA手法と同等の性能を発揮した。