
要約
我々は、インスタンスレベルの認識に適した深層局所記述子を効率的に学習する手法を提案する。本手法の学習には、ポジティブおよびネガティブな画像ペアの例のみを必要とし、グローバル画像記述子の和プール(sum-pooled)を用いたメトリック学習として実行される。推論段階では、ネットワーク内部の各コンポーネントの活性化値から局所記述子が得られる。本手法が、従来の効率的なマッチングカーネル手法と組み合わせて画像類似度推定に優れた性能を発揮する理由を実証的に示す。実験により、マッチングカーネルに基づく最先端の画像検索手法における性能とメモリ要件のトレードオフを検証した。既存の局所記述子と比較して、提案手法は2つのインスタンスレベル認識タスクにおいて優れた性能を達成しつつ、メモリ要件を低く抑える。また、大規模な設定においてグローバル記述子が十分な有効性を発揮しないこと、局所記述子の重要性を実験的に示した。本手法は、ResNet18のような小規模なバックボーンネットワークを用いても、場合によっては最先端の性能を達成している。