
要約
特徴表現は視覚的対応関係において重要な役割を果たしており、近年の画像マッチング手法は深層畳み込み層を積み重ねたモデルに依存している。しかし、これらのモデルは通常、特定の特徴レベル(例えば最終層の出力)を固定して使用するという点で一貫性と静的性を有しており、対応させる画像の内容に応じて柔軟に変化しない。本研究では、対応させる画像に応じて関連する層を条件付け、動的に有効な特徴を構成する新しいアプローチを提案する。物体検出における多層特徴の組み合わせおよび分類タスクにおける適応的推論アーキテクチャのアイデアに着想を得た本手法は、「Dynamic Hyperpixel Flow」と命名され、深層畳み込みニューラルネットワークから少数の関連層を選択することで、リアルタイムにハイパーカラム特徴を構成する能力を学習する。本手法の有効性は、同一オブジェクトまたはシーンカテゴリの異なるインスタンス間の対応関係を確立する「意味的対応」のタスクにおいて実証された。標準ベンチマーク上での実験結果から、本手法は従来の最先端手法と比較して、適応的かつ効率的な方法でマッチング性能を大幅に向上させることを示した。