7日前
マルチスケールマッチングネットワークによる意味対応のための手法
Dongyang Zhao, Ziyang Song, Zhenghao Ji, Gangming Zhao, Weifeng Ge, Yizhou Yu

要約
深層特徴量は、これまでの多数の研究において、高精度な密な意味的対応関係を構築する上で強力な手法であることが証明されている。しかし、畳み込みニューラルネットワーク(CNN)の多スケールかつピラミッド構造は、意味的対応に適した判別性の高いピクセル単位の特徴を学習するためには十分に検討されていない。本論文では、隣接ピクセル間の微小な意味的差異に敏感な多スケールマッチングネットワークを提案する。我々は粗い段階から細かい段階へと進むマッチング戦略に従い、深層畳み込みニューラルネットワークの多スケール階層と連携したトップダウン型の特徴強化およびマッチング強化スキームを構築する。特徴強化の過程において、スケール内強化は局所的な自己注意機構(local self-attention)を用いて複数層からの同一解像度の特徴マップを統合し、スケール間強化はトップダウンの階層に沿って高解像度の特徴マップを「幻覚化」(hallucinate)する。さらに、異なるスケールで補完的なマッチング情報を学習することで、異なる意味レベルの特徴を段階的に用いて全体のマッチングスコアを精緻化する。提案する多スケールマッチングネットワークは、追加の学習可能なパラメータが極めて少なく、エンドツーエンドでの学習が容易である。実験結果により、本手法が3つの代表的なベンチマークにおいて最先端の性能を達成し、高い計算効率を示すことが確認された。