Command Palette
Search for a command to run...
{Nicu Sebe Yi Yang Shaozi Li Zhiming Luo Zhun Zhong Zhedong Zheng Jinliang Lin}
要約
本稿では、異なる視点から撮影された画像同士を一致させる「クロスビュー地理局所化(cross-view geo-localization)」問題に着目し、視点不変の判別力のある視覚表現を学習するという重要な動機に基づいて研究を行う。人間の視覚系が局所パターンを効果的に抽出する仕組みに着想を得て、一貫したネットワーク内で判別力のある表現学習と顕著なキーポイント検出を同時に実現する新しいフレームワーク、RK-Netを提案する。具体的には、特徴マップから代表的なキーポイントを自動的に発見し、顕著な領域に注目を向けることができる「ユニット減算注意モジュール(Unit Subtraction Attention Module: USAM)」を導入した。USAMは学習パラメータが極めて少なく、性能向上効果が顕著であり、さまざまなネットワークに容易に統合可能である。広範な実験を通じて、以下の点を示した:(1)USAMを組み込むことで、RK-Netは追加のアノテーションを必要とせずにエンドツーエンドの同時学習を実現する。表現学習とキーポイント検出は密接に関連しており、表現学習はキーポイント検出を支援し、逆にキーポイント検出は視点変化に起因する顕著な外観変化に対するモデルの耐性を高める。その結果、両タスクが相互に補完し合う効果が得られる。(2)USAMは実装が容易であり、既存の手法とも容易に統合可能であり、さらなるSOTA(最先端)性能向上を実現する。本手法は、University-1652、CVUSA、CVACTの3つの難易度の高いデータセットにおいて、競争力ある地理局所化精度を達成した。実装コードは以下のURLから公開されている:https://github.com/AggMan96/RK-Net。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| drone-navigation-on-university-1652-1 | SAFA + USAM | AP: 71.77 Recall@1: 83.23 |
| drone-navigation-on-university-1652-1 | RK-Net | AP: 65.76 Recall@1: 80.17 |
| drone-navigation-on-university-1652-1 | LPN + USAM | AP: 75.96 Recall@1: 86.59 |
| drone-view-target-localization-on-university-1 | RK-Net | AP: 70.23 Recall@1: 66.13 |
| drone-view-target-localization-on-university-1 | LPN + USAM | AP: 80.55 Recall@1: 77.60 |
| drone-view-target-localization-on-university-1 | SAFA + USAM | AP: 75.79 Recall@1: 72.19 |
| image-based-localization-on-cvact | RK-Net | Recall@1: 40.53 Recall@1 (%): 89.12 |
| image-based-localization-on-cvact | Instance Loss | Recall@1: 35.24 Recall@1 (%): 87.34 |
| image-based-localization-on-cvusa-1 | RK-Net | Recall@1: 52.50 Recall@top1%: 96.52 |