Neu Betrachten von Allem: Visuelle Ortserkennung durch Bildsegment-Retrieval

Die genaue Erkennung eines bereits besuchten Ortes ist entscheidend für verkörperte Agenten zur Lokalisierung und Navigation. Dies erfordert visuelle Repräsentationen, die eindeutig sind, trotz starker Variationen in der Kamera-Perspektive und dem Szenenauftritt. Bestehende Pipelines zur visuellen Ortserkennung kodieren das „gesamte“ Bild und suchen nach Übereinstimmungen. Dies stellt eine grundlegende Herausforderung bei der Zuordnung von zwei Bildern desselben Ortes, die aus verschiedenen Kamera-Perspektiven aufgenommen wurden: „Die Ähnlichkeit des überlappenden Teils kann von der Unterschiedlichkeit des nicht überlappenden Teils dominiert werden“. Wir begegnen dieser Herausforderung, indem wir „Bildsegmente“ anstelle des gesamten Bildes kodieren und durchsuchen. Wir schlagen vor, offene Bildsegmentierung zu verwenden, um ein Bild in ‚bedeutungsvolle‘ Entitäten (d.h., Dinge und Materialien) zu zerlegen. Dies ermöglicht es uns, eine neue Bildrepräsentation als Sammlung mehrerer überlappender Teilgraphen zu erstellen, die ein Segment mit seinen benachbarten Segmenten verbinden – dies nennen wir SuperSegment. Darüber hinaus schlagen wir eine neuartige faktorisierte Repräsentation der Merkmalsaggregation vor, um diese SuperSegments effizient in kompakte Vektordarstellungen zu kodieren. Wir zeigen, dass das Abrufen dieser partiellen Repräsentationen zu einem deutlich höheren Erkennungsrate führt als die übliche ganzbildbasierte Suchmethode. Unser segmentbasierte Ansatz, SegVLAD genannt, setzt einen neuen Standard in der Ortserkennung auf einer vielfältigen Auswahl von Benchmark-Datensätzen und ist sowohl für generische als auch für aufgabenorientierte Bildkodierer anwendbar. Schließlich demonstrieren wir das Potenzial unserer Methode, „jeden beliebigen Ort erneut zu besuchen“, indem wir unsere Methode an einem Objektinstanz-Retrieval-Aufgabe evaluieren. Dies verbindet die beiden unterschiedlichen Forschungsgebiete – visuelle Ortserkennung und objektzielgerichtete Navigation – durch ihr gemeinsames Ziel, spezifische Zielobjekte an einem Ort zu erkennen. Quellcode: https://github.com/AnyLoc/Revisit-Anything.