
要約
本稿では、地上視点と空中視点の間に内在する相違を明示的に扱うため、新たな深層ネットワークを提案する。我々は、地上画像と空中画像の間に近似的なドメイン対応関係が存在することに着目した。具体的には、空中画像における同一方位方向に位置するピクセルは、地上視点の画像においてほぼ垂直な画像列に対応する。この事実を活用するため、2段階のアプローチを提案する。第一段階として、空中画像に通常の極座標変換(polar transform)を適用し、そのドメインを地上パノラマ画像のドメインに近づける。なお、極座標変換は純粋な幾何変換であり、シーンの内容に依存しないため、両ドメインを完全に一致させることはできない。第二段階として、空間的アテンション機構を導入し、埋め込み空間内における対応する深層特徴をさらに近づける。特徴表現のロバスト性を向上させるために、複数の空間的埋め込みを学習する特徴集約戦略を導入する。この2段階のアプローチにより、より判別力の高い深層表現を獲得し、視点間の地理的局所化(cross-view Geo-localization)をより高精度に実現する。標準ベンチマークデータセット上での実験結果から、従来の最先端手法と比較して、再現率(recall rate)が2倍以上向上する顕著な性能向上を達成した。