
世界規模の画像ジオローカライゼーションは、世界各地から多様な画像が発信されることから、依然として難題となっています。ビジョントランスフォーマーを基にした手法は、ジオローカライゼーションの精度向上に大きな進展をもたらしましたが、先行研究での成功はランドマークの画像の狭い分布に限定されており、未見の場所への性能の一般化には至っていません。本稿では、意味的なジオセル作成、マルチタスク対照的前学習、および新規損失関数を組み合わせた新しいジオローカライゼーションシステムを提案します。さらに、当研究は初めて位置クラスタに対する検索を行い、推測の洗練化を実現しています。評価のためにストリートレベルデータと汎用的な画像ジオローカライゼーション向けに2つのモデルを訓練しました。最初のモデルであるPIGEONは、Geoguessrというゲームからのデータで訓練され、世界中で40%以上の推測地点を目標地点から25キロメートル以内に配置する能力を持っています。また、私たちはボットを開発し、PIGEONをヒューマンプレイヤーとのブラインド実験で使用しました。その結果、上位0.01%のプレイヤーにランクインしました。さらに、世界屈指のプロGeoguessrプレイヤーとの6試合シリーズ(視聴者数が何百万人にも及ぶ)で全勝を収めました。2つ目のモデルであるPIGEOTTOは、FlickrとWikipediaからの画像データセットで訓練される点が異なります。これにより広範囲な画像ジオローカライゼーションベンチマークにおいて最先端の成果を達成し、都市精度レベルでは最大7.7ポイント改善し、国レベルでは最大38.8ポイント改善しています。これらの結果から、PIGEOTTOは未見の場所に対して効果的に一般化する最初の画像ジオローカライゼーションモデルであり、当アプローチが高精度な世界規模の画像ジオローカライゼーションシステム開発への道筋となることが示唆されます。私たちのコードはGitHub上で公開されています。