2ヶ月前

Pair-VPR: 場所認識を意識した事前学習と対照的なペア分類によるビジョントランスフォーマーを用いた視覚的場所認識

Stephen Hausler; Peyman Moghadam

要約

本研究では、Visual Place Recognition (VPR) 用の新しい共同学習手法を提案します。この手法は、グローバル記述子と再ランキング用のペア分類器を同時に学習します。ペア分類器は、与えられた画像のペアが同じ場所から来ているかどうかを予測することができます。ネットワークはエンコーダーとペア分類器の両方で Vision Transformer コンポーネントのみを使用しており、これらのコンポーネントはそれぞれのクラストークンを使用して訓練されます。既存の VPR メソッドでは、通常、ImageNet のような汎用画像データセットから事前学習された重みを使用してネットワークを初期化します。本研究では、Siamese Masked Image Modelling を事前学習タスクとして使用する代替的な事前学習戦略を提案します。また、大規模な VPR データセットコレクションから VPR 特有に調整された視覚特徴量を学習するために、場所認識可能な画像サンプリング手順を提案しています。第二段階の訓練でマスク画像モデリングのエンコーダーとデコーダーの重みを再利用することで、Pair-VPR は ViT-B エンコーダーを使用して5つのベンチマークデータセットにおいて最先端の VPR 性能を達成し、さらに大きなエンコーダーを使用することで位置特定リコール率が向上します。Pair-VPR のウェブサイトは以下の通りです: https://csiro-robotics.github.io/Pair-VPR.