
要約
写真の地理的位置の正確な推定は、多様な興味深い応用を可能にする一方で、極めて困難な課題でもある。問題の複雑さのため、従来の多数のアプローチは特定の地域や画像データ、または世界規模のランドマークに限定されている。限られた研究のみが、いかなる制約も設けずにGPS座標を予測する試みを行っている。本論文では、このような制約のないアプローチを追求するため、深層学習に基づく複数の手法を提案する。これらの手法は、地球を地理的なセルに分割することで、位置推定を分類問題として扱う。さらに、複数の階層的な分割構造に関する知識を活用するとともに、写真のシーンコンテンツ(室内、自然、都市環境など)を抽出・考慮する。その結果、畳み込みニューラルネットワークの学習プロセスにおいて、異なる空間解像度における文脈情報および、さまざまな環境設定に特化した特徴量が統合される。2つのベンチマークデータセットを用いた実験結果から、本手法が最先端の技術を上回る性能を発揮することを示した。また、学習に必要な画像数が著しく少なく、適切な参照データセットを必要とするリトリーバル手法に依存しない点も、本手法の優位性を示している。