18日前
事前学習モデルの視覚的場所認識へのシームレスな適応に向けて
Feng Lu, Lijun Zhang, Xiangyuan Lan, Shuting Dong, Yaowei Wang, Chun Yuan

要約
近年の研究では、大規模なデータを用いて一般的な視覚学習タスクで事前学習された視覚モデルが、多様な視覚認識問題において有用な特徴表現を提供できることを示している。しかし、視覚的場所認識(VPR)において事前学習された基礎モデルを活用する試みはまだ少ない。モデルの事前学習とVPRのタスク間には、学習目的およびデータの本質的な違いがあるため、これらのギャップを埋め、事前学習モデルの潜在能力を最大限に引き出す方法は依然として解決すべき重要な課題である。この問題に対処するため、我々は事前学習モデルをVPRにスムーズに適応するための新しい手法を提案する。具体的には、場所を識別する上で顕著なランドマークに注目したグローバルかつローカルな特徴を効率的に取得するため、軽量なアダプタのみを微調整し、事前学習モデル自体のパラメータを変更せずに、グローバルおよびローカルな適応を同時に行うハイブリッド適応手法を設計した。さらに、効果的な適応を促進するため、相互最近傍のローカル特徴損失を提案した。この損失関数により、適切な密なローカル特徴が生成され、再ランク付けにおける時間のかかる空間的検証を回避できる。実験結果から、本手法はより少ない学習データおよび学習時間で最先端の手法を上回り、RANSACに基づく空間的検証を用いる二段階VPR手法と比較して、約3%の検索実行時間で済むことを示した。本手法は、提出時点でのMSLSチャレンジリーダーボードで1位を獲得した。コードはhttps://github.com/Lu-Feng/SelaVPRにて公開されている。