
要約
視覚的場所認識(Visual Place Recognition: VPR)の課題は、異なる場所から収集された大規模な画像データベース内の参照画像と、クエリ画像を視覚的情報のみに依拠して照合することを目的としている。最先端のパイプラインは、深層バックボーンから抽出された特徴量の集約に基づき、各画像に対してグローバル記述子を構築することに注力している。本研究では、このような文脈において、NetVLADの局所特徴量をクラスタに柔軟に割り当てる手法を最適輸送問題として再定式化したSALAD(Sinkhorn Algorithm for Locally Aggregated Descriptors)を提案する。SALADでは、特徴量とクラスタの間の双方向的な関係(特徴量→クラスタおよびクラスタ→特徴量)を考慮するとともに、「ダストビン(dustbin)」と呼ばれる特別なクラスタを導入し、情報量が乏しいと判断される特徴量を選択的に除外することで、全体的な記述子の品質を向上させている。さらに、局所特徴量の表現力が向上するようにDINOv2をバックボーンとして活用・微調整することで、著しい訓練時間の短縮を実現した。その結果、単段階型の本手法は、公開のVPRデータセットにおいて単段階ベースラインを上回る性能を達成するだけでなく、再ランク付けを追加する二段階型手法(より高い計算コストを伴う)をも凌駕している。コードおよびモデルは、https://github.com/serizba/salad にて公開されている。