
地図上の位置特定のための視点間画像マッチングは、空中と地上レベルの視点間に大きな視覚的な違いがあるため、困難な問題となっています。本手法はジオ参照画像から位置情報を提供し、外部デバイスや高価な機器を必要としないようにすることで、エージェントがGNSS(Global Navigation Satellite System)非対応環境で自立的に位置を特定し、ナビゲーションを行い、効果的に動作する能力を向上させます。現在の研究では、ドメインギャップを縮小するために様々な技術が用いられています。例えば、空中画像に極座標変換を適用したり、視点間での合成を行ったりする方法があります。しかし、これらのアプローチは一般的に360度の視野角を持つことを前提としているため、実世界での実現可能性が制限されています。そこで我々はBEV-CV(Bird's Eye View Cross-View)というアプローチを提案します。この手法には2つの重要な新規性があり、視点間ジオローカリゼーションの実世界での実現可能性向上を目指しています。まず第1に、地上レベルの画像をセマンティックな鳥瞰図(Bird's Eye View)に変換してから埋め込み(embedding)をマッチングすることで、空中画像表現との直接的な比較が可能になります。第2に、データセットをアプリケーションにとって現実的な形式に適応させています。具体的には、車両の進行方向に合わせた限定された視野角(Field-of-View)の画像を使用しています。BEV-CVは最先端の再検出精度を達成しており、CVUSAとCVACTの70度クロップ画像におけるTop-1率をそれぞれ23%と24%向上させています。また、浮動小数点演算量を以前の研究よりも低減することで計算要件を軽減し、埋め込み次元数も33%削減しています。これらにより高速な位置特定能力が可能になっています。