
要約
近年、局所的特徴とグローバル特徴を組み合わせる手法が、複数の難易度の高い深層画像検索ベンチマークにおいて優れた性能を示しているが、局所的特徴の使用に伴い少なくとも二つの問題が生じる。第一に、これらの局所的特徴は単にニューラルネットワークの局所化されたマップ活性化に還元され、極めて冗長になる可能性がある。第二に、通常これらの特徴はグローバル損失関数によって学習されるが、この損失は局所特徴の集約結果にのみ作用するのに対し、テスト段階では局所特徴のマッチングに基づく処理が行われるため、学習とテストの間に乖離が生じる。本論文では、中間レベルの特徴にのみ依拠する新しい深層画像検索アーキテクチャを提案する。この特徴を「スーパーフィーチャー(Super-features)」と呼ぶ。これらのスーパーフィーチャーは反復的アテンションモジュールによって構築され、各要素が局所的かつ識別的な画像パターンに注目する順序付き集合を形成する。学習には画像ラベルのみが必要である。対照的損失(contrastive loss)はスーパーフィーチャーのレベルで直接作用し、画像間で一致する要素に注目する。さらに、第二の補完的損失が多様性を促進する。一般的なランドマーク検索ベンチマークにおける実験結果から、同じ数の特徴量を使用した場合、スーパーフィーチャーは最先端手法を著しく上回り、性能を同等に達成するためにははるかに小さなメモリ容量で済むことが確認された。コードとモデルは以下のURLで公開されている:https://github.com/naver/FIRe。