2ヶ月前

世界を80ステップで一周:グローバル視覚地理位置の生成アプローチ

Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu
世界を80ステップで一周:グローバル視覚地理位置の生成アプローチ
要約

地球全体の視覚的な位置特定は、画像が地球上のどこで撮影されたかを予測します。画像の位置特定の精度は様々であるため、このタスクには本質的に大きな曖昧性が含まれています。しかし、既存のアプローチは確定的であり、この側面を見落としています。本論文では、伝統的な位置特定と現代的な生成モデルの間にあるギャップを埋めることを目指しています。我々は、拡散とリーマンフロー・マッチングに基づく最初の生成的位置特定アプローチを提案します。この方法では、ノイズ除去プロセスが直接地球表面で行われます。我々のモデルは、OpenStreetView-5M、YFCC-100M、iNat21 の3つの視覚的な位置特定ベンチマークで最先端の性能を達成しています。さらに、我々は確率的な視覚的位置特定という新たなタスクを導入します。このタスクでは、モデルが単一の点ではなくすべての可能な場所に対する確率分布を予測します。我々はこのタスクのために新しい評価指標とベースラインを導入し、拡散に基づくアプローチの優位性を示しています。コードとモデルは公開される予定です。

世界を80ステップで一周:グローバル視覚地理位置の生成アプローチ | 最新論文 | HyperAI超神経