11日前

シンプルで効果的かつ汎用的:視点間画像ジオロケーションのための新規バックボーン

Yingying Zhu, Hongji Yang, Yuxin Lu, Qiang Huang
シンプルで効果的かつ汎用的:視点間画像ジオロケーションのための新規バックボーン
要約

本研究では、クロスビュー地物局所化タスクに特化した、シンプルかつ効果的なバックボーンネットワークの構築という、重要だが十分に検討されていない課題に取り組む。従来のクロスビュー地物局所化手法は、1)複雑なアーキテクチャ、2)GPUを大量に消費する計算、3)空中画像と地上画像が中心または方向的に整列しているという厳格な仮定を共通して抱えている。これらの課題を解決するため、本研究では新しいバックボーンネットワーク「Simple Attention-based Image Geo-localization network(SAIG)」を提案する。SAIGは、マルチヘッド自己注意(self-attention)層を用いて、パッチ間の長距離相互作用およびクロスビュー対応関係を効果的に表現する。本ネットワークの「狭く深い(narrow-deep)」アーキテクチャにより、性能の低下を伴わずに特徴量の豊かさを向上させることができ、また浅い構造の畳み込みスタム(convolutional stem)が局所性を維持し、パッチ化に伴う境界情報の損失を回避する。SAIGは、従来の手法よりもはるかにシンプルである一方で、クロスビュー地物局所化タスクにおいて最先端の性能を達成している。さらに、最先端手法と比較してモデルパラメータが15.9%、出力次元が半分に抑えられながらも、特別な特徴集約モジュールや特徴対合アルゴリズムを用いずに、複数のクロスビューデータセットに良好に適応している。また、画像検索ベンチマークにおいても競争力あるスコアを達成しており、本手法の汎化能力を裏付けている。バックボーンネットワークとしてのSAIGは、構築が容易かつ計算負荷が低いため、実用的な場面においても高い意義を持つ。さらに、空間情報を低次元空間に混合・投影することで特徴記述子を生成する、シンプルな「Spatial-Mixed feature aggregation module(SMD)」も提案する。(コードは https://github.com/yanghongji2007/SAIG で公開中)

シンプルで効果的かつ汎用的:視点間画像ジオロケーションのための新規バックボーン | 最新論文 | HyperAI超神経