HyperAIHyperAI

Command Palette

Search for a command to run...

大規模応用における視覚的地物定位の再考

Gabriele Berton Carlo Masone Barbara Caputo

概要

視覚的地物定位(Visual Geo-localization: VG)とは、位置が既知の画像データベースと照合することで、与えられた写真が撮影された場所を推定するタスクである。現存する技術が実世界の都市規模のVGアプリケーションにおいてどのように機能するかを検証するため、我々はサンフランシスコ全域をカバーする新たなデータセット「San Francisco eXtra Large(SF-XL)」を構築した。このデータセットは、従来の視覚的地物定位用最大データセットと比較して30倍以上規模が大きく、多様で挑戦的なケースを幅広く含んでいる。我々の調査では、現在の手法がこのような大規模データセットにスケーリングできないことが明らかになった。そこで、従来の対比学習(contrastive learning)に必要な高コストなマイニングを回避する分類問題として学習を定式化する、新たな高スケーラビリティを備えた訓練手法「CosPlace」を設計した。CosPlaceは、広範なデータセットにおいて最先端の性能を達成し、重度のドメイン変化に対しても堅牢であることが示された。さらに、従来の最先端手法と比較して、CosPlaceは学習時のGPUメモリ使用量を約80%削減し、記述子(descriptor)のサイズを8倍小さくしても優れた結果を達成する。これにより、都市規模の実世界における視覚的地物定位の実現が可能となる。データセット、コード、および学習済みモデルは、研究目的のためにhttps://github.com/gmberton/CosPlaceにて公開されている


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています