13日前

Patch-NetVLAD:局所的・グローバルな記述子のマルチスケール融合による場所認識

Stephen Hausler, Sourav Garg, Ming Xu, Michael Milford, Tobias Fischer
Patch-NetVLAD:局所的・グローバルな記述子のマルチスケール融合による場所認識
要約

視覚的場所認識(Visual Place Recognition)は、常に変化する世界において外観および視点の変化という二重の課題に直面するロボティクスおよび自律システムにとって難しいタスクである。本論文では、NetVLADの残差からパッチレベルの特徴量を導出することで、局所特徴量手法とグローバル特徴量手法の利点を統合する新しいアプローチであるPatch-NetVLADを提案する。従来の局所キーポイント特徴量が固定された空間的近傍構造に依存するのに対し、本手法は特徴空間グリッド上に定義された深層学習による局所特徴量の集約とマッチングを可能にする。さらに、積分的特徴空間を介して異なるスケール(すなわちパッチサイズ)を持つパッチ特徴量のマルチスケール融合を導入し、その融合特徴量が環境条件(季節、構造、照明)および視点(並進および回転)の変化に対して高い不変性を示すことを示した。Patch-NetVLADは、計算コストと同等の条件下で、グローバルおよび局所特徴量ベースの従来手法を上回り、Facebook Mapillary 視覚的場所認識チャレンジ(ECCV2020)において優勝を果たすなど、多様な実世界データセットにおいて最先端の視覚的場所認識性能を達成している。また、ユーザーの要件に応じたカスタマイズが可能であり、高速化されたバージョンは最先端手法よりも1桁以上高速に動作する。柔軟な構成性を備えつつ優れた性能と計算効率を両立させたPatch-NetVLADは、単体の場所認識能力の向上だけでなく、SLAMシステム全体の性能向上にも適している。