MixVPR: Feature Mixing für die visuelle Platzerkennung

Visual Place Recognition (VPR) ist ein entscheidender Bestandteil mobiler Robotik und autonomen Fahrens sowie weiterer Aufgaben im Bereich des Computersehens. Es bezeichnet den Prozess der Identifizierung eines Ortes, der in einem Abfragebild dargestellt ist, unter ausschließlicher Nutzung von Computer Vision-Techniken. Auf großem Maßstab stellen sichere Strukturen, Veränderungen durch Wetter und Beleuchtung eine echte Herausforderung dar, da sich die Erscheinung eines Ortes im Laufe der Zeit erheblich verändern kann. Neben der Bewältigung dieser Herausforderungen muss eine effiziente VPR-Technik auch in realen Anwendungsszenarien praktikabel sein, wobei Latenz eine entscheidende Rolle spielt. Um dies zu adressieren, stellen wir MixVPR vor – eine neue, ganzheitliche Merkmalsaggregationstechnik, die Merkmalskarten aus vortrainierten Backbone-Modellen als Satz globaler Merkmale nutzt. Anschließend integriert sie über eine Kaskade von Merkmalsmischungen eine globale Beziehung zwischen den Elementen jeder Merkmalskarte, wodurch der Bedarf an lokaler oder pyramidenförmiger Aggregation, wie sie beispielsweise bei NetVLAD oder TransVPR verwendet wird, entfällt. Wir belegen die Wirksamkeit unserer Methode durch umfangreiche Experimente auf mehreren großen Benchmark-Datensätzen. Unser Ansatz übertrifft alle bestehenden Techniken deutlich, während er weniger als die Hälfte der Parameter von CosPlace und NetVLAD benötigt. Wir erreichen eine neue Allzeit-Höchstwert-Recall@1-Score von 94,6 % auf Pitts250k-test, 88,0 % auf MapillarySLS und vor allem 58,4 % auf Nordland. Schließlich übertrifft unsere Methode auch zweistufige Retrieval-Techniken wie Patch-NetVLAD, TransVPR und SuperGLUE – und das bei einer Geschwindigkeit, die um Größenordnungen höher ist. Der Quellcode und die trainierten Modelle sind unter https://github.com/amaralibey/MixVPR verfügbar.