
視覚的場所認識(Visual Place Recognition: VPR)は、モバイルロボットや自動運転をはじめとする多くのコンピュータビジョンタスクにおいて不可欠な要素である。VPRとは、クエリ画像に描かれた場所を、コンピュータビジョン技術のみを用いて識別するプロセスを指す。大規模な環境においては、繰り返し出現する構造や天候・照明条件の変化が大きな課題となり、画像の外観が時間経過とともに著しく変化するため、正確な認識が困難となる。このような課題に対処しつつ、実世界の応用においても実用性を備えるためには、低レイテンシ(遅延)が求められる。この課題に応えるために、本研究ではMixVPRを提案する。MixVPRは、事前に学習されたバックボーンから得られる特徴マップを、グローバル特徴の集合として扱い、特徴マップ内の要素間のグローバルな関係性を、特徴の混合(feature mixing)を段階的に適用することで統合する、新しい包括的特徴集約手法である。これにより、NetVLADやTransVPRで採用されている局所的またはピラミッド型の特徴集約を不要にした。複数の大規模ベンチマークを用いた広範な実験により、本手法の有効性を実証した。既存のすべての手法を大きく上回る性能を達成しつつ、CosPlaceやNetVLADと比較してパラメータ数が半分以下に抑えることに成功した。特に、Pitts250k-testでは94.6%のrecall@1、MapillarySLSでは88.0%、そして特に重要なNordlandデータセットでは58.4%という、過去最高の記録を達成した。さらに、Patch-NetVLAD、TransVPR、SuperGLUEといった二段階検索手法を上回りながら、それらと比べて桁違いに高速であることも確認した。本研究のコードおよび学習済みモデルは、https://github.com/amaralibey/MixVPR にて公開されている。