7日前

CATs:視覚的対応におけるコスト集約Transformer

Seokju Cho, Sunghwan Hong, Sangryul Jeon, Yunsung Lee, Kwanghoon Sohn, Seungryong Kim
CATs:視覚的対応におけるコスト集約Transformer
要約

我々は、大規模なクラス内外観および幾何変動という追加的な課題を伴う、意味的に類似した画像間の高密度対応関係を探索するための新しいコスト集約ネットワーク、すなわち「コスト集約トランスフォーマー(Cost Aggregation Transformers, CATs)」を提案する。マッチングタスクにおけるコスト集約は、マッチング精度がその出力品質に大きく依存する極めて重要なプロセスである。従来の手作業による手法やCNNベースのアプローチと比較して、前者は著しい変形に対して堅牢性に欠けるか、後者は受容場(receptive field)の制限により誤ったマッチングを区別できないというCNNの限界を引き継いでいる。これに対して、CATsは自己注意(self-attention)メカニズムを十分に活用できるようなアーキテクチャ設計を導入することで、初期相関マップ間のグローバルな合意を探索する。具体的には、ノイズの多い初期相関マップの不確実性を解消するため、外観類似性モデリングをコスト集約プロセスに組み込み、階層的な特徴表現から異なる意味情報を効率的に捉えるためのマルチレベル集約を提案する。さらに、スワップ自己注意(swapping self-attention)技術と残差接続(residual connections)を組み合わせることで、一貫性のあるマッチングを強制するとともに学習プロセスの安定化を図った。実験の結果、これらの工夫が顕著な性能向上をもたらすことが確認された。提案手法の有効性は、最新の手法と比較した実験により示され、広範なアブレーションスタディも実施した。プロジェクトページは以下のURLから閲覧可能である:https://sunghwanhong.github.io/CATs/。

CATs:視覚的対応におけるコスト集約Transformer | 最新論文 | HyperAI超神経