17日前
EffoVPR:視覚的場所認識における基礎モデルの効果的利用
Issar Tzachor, Boaz Lerner, Matan Levy, Michael Green, Tal Berkovitz Shalev, Gavriel Habib, Dvir Samuel, Noam Korngut Zailer, Or Shimshi, Nir Darshan, Rami Ben-Ari

要約
視覚的場所認識(Visual Place Recognition: VPR)の課題は、地理タグ付き画像のデータベースからクエリ画像の位置を予測することである。近年のVPRに関する研究では、DINOv2のような事前学習された基礎モデル(foundation model)をVPRタスクに活用する際の顕著な利点が強調されている。しかし、これらのモデルはVPR固有のデータ上でさらに微調整(fine-tuning)を行わないと、実用上は不十分とされることが多い。本論文では、基礎モデルのVPRにおける潜在能力を有効に活用するための新しいアプローチを提案する。本研究では、自己注意(self-attention)層から抽出された特徴量が、ゼロショット(zero-shot)設定下でも強力な再ランク付け(re-ranker)として機能することを示した。本手法は、従来のゼロショットアプローチを上回る性能を達成するだけでなく、複数の教師あり(supervised)手法と比較しても競争力のある結果を示している。さらに、内部のViT層を用いた単段階のプーリング手法により、グローバル特徴量を生成し、128次元という極めてコンパクトな特徴量サイズで最先端の性能を達成することを実証した。また、局所的な基礎モデル特徴量を再ランク付けに統合することで、性能差はさらに拡大される。本手法は、遮蔽、昼夜の変化、季節的変化といった困難な条件下でも優れたロバスト性と汎化能力を示し、新たな最先端の性能を達成した。