17日前

階層的類似度監督を用いたデータ効率的な大規模場所認識

Maria Leyva-Vallina, Nicola Strisciuglio, Nicolai Petkov
階層的類似度監督を用いたデータ効率的な大規模場所認識
要約

視覚的場所認識(Visual Place Recognition, VPR)は、視覚的局所化において基本的なコンピュータビジョンの課題である。従来の手法は、同一場所を撮影した画像ペアまたは異なる場所を撮影した画像ペアを用いて学習される。しかし、このような二値的な類似性ラベルは、カメラの姿勢の連続性に起因する、同一場所の異なる位置から撮影された画像間の連続的な類似性関係を考慮していない。この二値的類似性は、VPR手法の学習にノイズを含む教師信号をもたらし、局所最適解に陥る原因となり、収束を保証するためには高コストなハードペアマイニング(hard-pair mining)アルゴリズムを必要とする。カメラ姿勢の違いにより、同一場所の画像同士は完全に視覚的特徴を共有しないという事実に着目し、本研究ではVPRデータセットに対する自動再ラベル付け戦略を導入する。具体的には、利用可能な局所化メタデータに基づき、画像ペアに対して段階的な類似性ラベルを計算する。さらに、段階的な類似性ラベルを用いて対比学習ネットワークを学習するための新しい一般化対比損失(Generalized Contrastive Loss, GCL)を提案する。実験により、新たなラベルとGCLの導入により、ハードペアマイニングを不要とし、最近傍探索に基づくVPR性能が向上することを示した。その結果、高コストなハードペアマイニングや再ランク付け技術を必要とする既存手法と比較して、同等または優れた性能を達成することが明らかになった。コードとモデルは以下のURLで公開されている:https://github.com/marialeyvallina/generalized_contrastive_loss