Pair-VPR: Platzbewusstes Vortraining und kontrastbasierte Paarklassifizierung für die visuelle Ortserkennung mit Vision-Transformern

In dieser Arbeit schlagen wir eine neue gemeinsame Trainingsmethode für die visuelle Ortserkennung (Visual Place Recognition, VPR) vor, die gleichzeitig einen globalen Deskriptor und einen Paarklassifizierer für die Re-Ranking lernt. Der Paarklassifizierer kann vorhersagen, ob ein gegebenes Bildpaar vom selben Ort stammt oder nicht. Das Netzwerk besteht ausschließlich aus Vision Transformer-Komponenten sowohl für den Encoder als auch für den Paarklassifizierer, und beide Komponenten werden mit ihren jeweiligen Klassenmarkern trainiert. Bei existierenden VPR-Methoden wird das Netzwerk in der Regel mit vorab trainierten Gewichten von einem generischen Bild-Datensatz wie ImageNet initialisiert. In dieser Arbeit schlagen wir eine alternative Vortrainierungsstrategie vor, indem wir Siamesisches Maskiertes Bildmodellieren (Siamese Masked Image Modelling) als Vortrainieraufgabe verwenden. Wir schlagen ein ortsbewusstes Bilderzeugungsverfahren aus einer Sammlung großer VPR-Datensätze vor, um unser Modell zuvorzutrainieren und visuelle Merkmale speziell für VPR abzustimmen. Durch die Wiederverwendung der Gewichte des Maskierten Bildmodellierungs-Encoders und -Decoders im zweiten Trainingsstadium kann Pair-VPR mit einem ViT-B-Encoder auf fünf Benchmark-Datensätzen Spitzenleistungen in der VPR erzielen und bei größeren Encodern zusätzliche Verbesserungen in der Lokalisierungserinnerung erreichen. Die Website von Pair-VPR lautet: https://csiro-robotics.github.io/Pair-VPR.