17日前

EigenPlaces:視覚的場所認識のための視点に頑健なモデルの訓練

Gabriele Berton, Gabriele Trivigno, Barbara Caputo, Carlo Masone
EigenPlaces:視覚的場所認識のための視点に頑健なモデルの訓練
要約

視覚的場所認識(Visual Place Recognition)とは、画像(クエリ)の視覚的特徴のみに基づいて、その画像が撮影された場所を予測するタスクである。このタスクは通常、画像検索を用いて実現され、クエリ画像が地理タグ付きの大量の写真データベースから最も類似した画像とマッチングされる。この際、学習されたグローバル記述子(global descriptors)が用いられる。このタスクにおける主要な課題の一つは、異なる視点から撮影された同一の場所を認識することである。この制約を克服するために、本研究では新たな手法「EigenPlaces」を提案する。EigenPlacesは、異なる視点からの画像を用いてニューラルネットワークを学習させることで、学習されたグローバル記述子に視点不変性(viewpoint robustness)を組み込む。その基本的な考え方は、訓練データをクラスタリングし、同じ地点の異なる視点を明示的にモデルに提示することにある。この地点の選定は、追加の教師信号(extra supervision)を必要としない。さらに、文献における最も包括的なデータセット群を用いた実験を行った結果、EigenPlacesは多数のデータセットにおいて既存の最先端手法を上回る性能を示した。同時に、学習に必要なGPUメモリは60%削減され、記述子のサイズは50%小さくなった。EigenPlacesのコードおよび学習済みモデルは、{\small{\url{https://github.com/gmberton/EigenPlaces}}}にて公開されている。また、他のベースライン手法との比較結果は、{\small{\url{https://github.com/gmberton/auto_VPR}}}に公開されたコードベースを用いて容易に計算可能である。