2ヶ月前

私たちの位置と視点:階層とシーンを用いたクエリベースの世界規模の画像ジオローカライゼーション

Brandon Clark; Alec Kerrigan; Parth Parag Kulkarni; Vicente Vivanco Cepeda; Mubarak Shah
私たちの位置と視点:階層とシーンを用いたクエリベースの世界規模の画像ジオローカライゼーション
要約

写真が撮影された正確な緯度と経度を特定することは、有用で広く応用可能な課題である一方、他のコンピュータビジョンのタスクが急速に進歩しているにもかかわらず、依然として非常に困難なままである。これまでの多くの手法は、クエリ画像の単一の表現を学習し、地理的な粒度の異なるレベルで分類することを選択してきた。これらの手法は、国、州、市などの異なる階層(ヒエラルキー)に文脈を与える視覚的な手がかりを活用できていない。この問題に対処するため、我々は階層間の関係と画像内の対応する視覚シーン情報を階層的クロスアテンションを通じて活用する、エンドツーエンドのトランスフォーマーに基づいたアーキテクチャを提案する。これは、各地理的階層とシーンタイプに対してクエリを学習することで達成される。さらに、同じ場所でも異なる視覚特徴によって定義されることがよくある異なる環境シーンに対して別々の表現を学習する。これにより、Im2GPS, Im2GPS3k, YFCC4k, および YFCC26k の 4 つの標準的なジオローカライゼーションデータセットにおいて最先端の街レベル精度を達成しただけでなく、我々の方法が異なる視覚階層とシーンに対して異なる表現を学習することを質的に示すことができた。これは以前の手法では示されていなかった点である。これらの以前のテストデータセットは主に象徴的なランドマークやソーシャルメディアから取得された画像で構成されており、それらは記憶タスクлибо 特定の場所への偏りを持つ傾向がある。この問題に対処するために、我々は世界全体をカバーしGoogle Street Viewから取得された画像で構成される遥かに難しいテストデータセット Google-World-Streets-15k を導入し、最先端の結果を提示した。我々のコードはカメラレディ版で公開される予定である。注:「 либо 」という文字列は原文には存在せず、誤って混入した可能性があります。正しくは以下の通りです。これらの以前のテストデータセットは主に象徴的なランドマークやソーシャルメディアから取得された画像で構成されており、それらは記憶タスクまたは特定の場所への偏りを持つ傾向がある。この問題に対処するために、我々は世界全体をカバーしGoogle Street Viewから取得された画像で構成される遥かに難しいテストデータセット Google-World-Streets-15k を導入し、最先端の結果を提示した。我々のコードはカメラレディ版で公開される予定である。

私たちの位置と視点:階層とシーンを用いたクエリベースの世界規模の画像ジオローカライゼーション | 最新論文 | HyperAI超神経