
要約
視覚的地物定位(Visual Geo-localization: VG)とは、位置が既知の画像データベースと照合することで、与えられた写真が撮影された場所を推定するタスクである。現存する技術が実世界の都市規模のVGアプリケーションにおいてどのように機能するかを検証するため、我々はサンフランシスコ全域をカバーする新たなデータセット「San Francisco eXtra Large(SF-XL)」を構築した。このデータセットは、従来の視覚的地物定位用最大データセットと比較して30倍以上規模が大きく、多様で挑戦的なケースを幅広く含んでいる。我々の調査では、現在の手法がこのような大規模データセットにスケーリングできないことが明らかになった。そこで、従来の対比学習(contrastive learning)に必要な高コストなマイニングを回避する分類問題として学習を定式化する、新たな高スケーラビリティを備えた訓練手法「CosPlace」を設計した。CosPlaceは、広範なデータセットにおいて最先端の性能を達成し、重度のドメイン変化に対しても堅牢であることが示された。さらに、従来の最先端手法と比較して、CosPlaceは学習時のGPUメモリ使用量を約80%削減し、記述子(descriptor)のサイズを8倍小さくしても優れた結果を達成する。これにより、都市規模の実世界における視覚的地物定位の実現が可能となる。データセット、コード、および学習済みモデルは、研究目的のためにhttps://github.com/gmberton/CosPlaceにて公開されている。