シームレスネットワークのための一般化コントラスト最適化による場所認識

視覚的場所認識(Visual place recognition)は、コンピュータビジョンにおける困難な課題であり、カメラベースの局所化およびナビゲーションシステムの主要な構成要素である。近年、畳み込みニューラルネットワーク(CNN)は高い性能と優れた汎化能力を達成しており、通常は画像ペアまたはトリプレットを用いて、類似または非類似という二値ラベルで学習される。しかし実際には、二つの画像間の類似度は二値的ではなく、連続的な尺度で表される。さらに、このようなCNNの学習は計算的に複雑であり、高コストなペアやトリプレットマイニング戦略を必要とする。本研究では、画像の類似度を連続的な指標として用いることで、シアンセスCNN(Siamese CNN)の学習に適した「一般化コントラスティブ損失(Generalized Contrastive Loss, GCL)」関数を提案する。また、画像ペアの類似度の程度を自動的にラベル付けするための3つの技術を提示し、これらを用いてMSLS、TB-Places、7Scenesデータセットを再ラベリングした。実験の結果、GCL関数と改良されたラベルを用いて学習されたシアンセスCNNは、従来の二値学習手法を一貫して上回ることが示された。特に、MSLSデータセットで学習したモデルは、NetVLAD、NetVLAD-SARE、AP-GeM、Patch-NetVLADなど最先端の手法を上回り、Pittsburgh30k、Tokyo 24/7、RobotCar Seasons v2、Extended CMU Seasonsなどの複数のデータセットにおいても良好な汎化性能を示した。さらに、GCL関数を用いたシアンセスネットワークの学習では、複雑なペアマイニングの必要がなく、学習プロセスが簡素化される。本研究のソースコードは、https://github.com/marialeyvallina/generalized_contrastive_loss にて公開している。