2ヶ月前

GeoCLIP: クリップを模した位置情報と画像のアライメントによる効果的な世界規模の地理的位置特定

Vicente Vivanco Cepeda; Gaurav Kumar Nayak; Mubarak Shah
GeoCLIP: クリップを模した位置情報と画像のアライメントによる効果的な世界規模の地理的位置特定
要約

世界中のジオローケーションは、地球上のどこででも撮影された画像の正確な位置を特定することを目指しています。この課題には地理的な景観の多様性による大きな困難が伴います。画像間検索に基づく手法は、全世界をカバーする大量の画像ギャラリーを構築することが現実的でないため、グローバルスケールでの問題解決に失敗します。そこで、既存のアプローチでは地球を離散的な地理的セルに分割し、問題を分類タスクに変換しています。しかし、これらの手法の性能は事前に定義されたクラスによって制限され、画像の位置がクラス中心から大幅にずれている場合、しばしば不正確な位置特定につながります。これらの制約を克服するために、我々はGeoCLIPという新しいCLIP(Contrastive Language–Image Pretraining)にインスピレーションを受けた画像からGPSへの検索手法を提案します。GeoCLIPの位置エンコーダーはランダムフーリエ特徴量を使用して位置情報を符号化し、異なる解像度で情報を捉える階層的な表現を構築することで、地球を連続関数としてモデル化します。これにより、ジオローケーションだけでなく他の用途にも適した意味的に豊かな高次元特徴量が得られます。我々の知る限り、これはGPS符号化をジオローケーションに応用した最初の研究です。我々はベンチマークデータセット上で広範な実験とアブレーション研究を通じて本手法の有効性を示しています。訓練データの20%のみを使用しても競争力のある性能を達成しており、限られたデータ環境下でもその効果性が強調されています。さらに、CLIPバックボーンを利用することでテキストクエリによるジオローケーションも定性的に示しています。プロジェクトウェブページ: https://vicentevivan.github.io/GeoCLIP

GeoCLIP: クリップを模した位置情報と画像のアライメントによる効果的な世界規模の地理的位置特定 | 最新論文 | HyperAI超神経