Patch-NetVLAD: Mehrskalige Fusion lokaler-Globaler Beschreibungen für die Ortsidentifikation

Visual Place Recognition stellt eine herausfordernde Aufgabe für Robotik und autonome Systeme dar, da diese die beiden gleichzeitigen Probleme der Veränderung des Erscheinungsbilds und des Blickwinkels in einer stets veränderlichen Welt bewältigen müssen. In diesem Artikel wird Patch-NetVLAD vorgestellt, ein neuartiges Ansatzkonzept, das die Vorteile sowohl lokaler als auch globaler Deskriptormethoden durch die Ableitung von Patch-level-Features aus den Residuen von NetVLAD kombiniert. Im Gegensatz zum festen räumlichen Nachbarschaftsmodell herkömmlicher lokaler Keypoint-Features ermöglicht unsere Methode die Aggregation und Abgleichung tiefgelernter lokaler Merkmale, die über ein Feature-Raster im Merkmalsraum definiert sind. Darüber hinaus führen wir eine multiskalige Fusion von Patch-Features mit komplementären Skalen (d. h. Patch-Größen) über einen integrierten Merkmalsraum ein und zeigen, dass die fusionierten Merkmale hochgradig invariant gegenüber Änderungen der Bedingungen (Saison, Struktur, Beleuchtung) sowie des Blickwinkels (Translation und Rotation) sind. Patch-NetVLAD übertrifft sowohl globale als auch lokale Merkmalsdeskriptor-basierte Methoden bei vergleichbarer Rechenleistung und erreicht auf einer Reihe herausfordernder Echtwelt-Datensätze state-of-the-art Ergebnisse im Bereich des Visual Place Recognition, darunter den Sieg beim Facebook Mapillary Visual Place Recognition Challenge auf dem ECCV2020. Zudem ist die Methode an die individuellen Anforderungen des Nutzers anpassbar, wobei eine geschwindigkeitsoptimierte Version mehr als eine Größenordnung schneller arbeitet als der derzeitige Stand der Technik. Durch die Kombination herausragender Leistungsfähigkeit mit verbesserter rechnerischer Effizienz in einem konfigurierbaren Rahmen ist Patch-NetVLAD besonders gut geeignet, sowohl die Eigenleistung von Stand-alone Place Recognition-Systemen als auch die Gesamtleistung von SLAM-Systemen zu verbessern.