2ヶ月前

世界のどこにこの画像があるのか?野生環境でのトランスフォーマーを基盤とする地理的ローカライゼーション

Shraman Pramanick; Ewa M. Nowara; Joshua Gleason; Carlos D. Castillo; Rama Chellappa
世界のどこにこの画像があるのか?野生環境でのトランスフォーマーを基盤とする地理的ローカライゼーション
要約

世界中のどこからでも撮影された単一の地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは非常に困難な問題である。この課題には、異なる環境シナリオによる画像の多様性、時間帯、天候、季節によって同じ場所の外観が大きく変化すること、そして何よりも重要な点として、予測はわずかなジオロケーションの手がかりしか持たない可能性のある単一の画像から行われることなどが含まれる。これらの理由により、既存の大半の研究は特定の都市、画像、または世界的なランドマークに限定されている。本研究では、惑星規模での単一画像ジオローカライゼーションに対する効率的な解決策を開発することに焦点を当てている。そのために、私たちはTransLocatorという統合型二重ブランチトランスフォーマーネットワークを提案する。このネットワークは全体的な画像内の微細な詳細に注目し、極端な外観変化にも堅牢な特徴表現を生成することができる。TransLocatorはRGB画像とそのセマンティックセグメンテーションマップを入力とし、各トランスフォーマーレイヤー後に並列する2つのブランチ間で相互作用を行い、マルチタスク方式でジオローカライゼーションとシーン認識を同時に行う。私たちはTransLocatorを4つのベンチマークデータセット(Im2GPS, Im2GPS3k, YFCC4k, YFCC26k)で評価し、最先进技術に対して大陸レベルでの精度向上率がそれぞれ5.5%、14.1%、4.9%、9.9%であったことを確認した。また、TransLocatorは実際のテスト画像でも検証され、以前の手法よりも有効であることが示された。

世界のどこにこの画像があるのか?野生環境でのトランスフォーマーを基盤とする地理的ローカライゼーション | 最新論文 | HyperAI超神経