Verallgemeinerte kontrastive Optimierung von Siamese-Netzwerken für die Ortserkennung

Die visuelle Ortserkennung ist eine herausfordernde Aufgabe im Bereich der Computer Vision und ein zentrales Element von kamerabasierten Lokalisations- und Navigationsystemen. In jüngster Zeit erzielten Convolutional Neural Networks (CNNs) hohe Ergebnisse und gute Verallgemeinerungsfähigkeiten. Sie werden typischerweise anhand von Bildpaaren oder -tripeln trainiert, die binär als ähnlich oder unähnlich gekennzeichnet sind. In der Praxis ist die Ähnlichkeit zwischen zwei Bildern jedoch nicht binär, sondern kontinuierlich. Zudem ist die Schulung dieser CNNs rechnerisch aufwendig und erfordert kostspielige Strategien zur Auswahl von Paaren und Tripeln. Wir schlagen eine verallgemeinerte Kontrastverlustfunktion (Generalized Contrastive Loss, GCL) vor, die auf einer kontinuierlichen Ähnlichkeitsmessung basiert, und verwenden sie, um ein siameses CNN zu trainieren. Darüber hinaus präsentieren wir drei Techniken zur automatischen Annotation von Bildpaaren mit Labels, die ihren Grad an Ähnlichkeit angeben, und wenden sie an, um die Datensätze MSLS, TB-Places und 7Scenes neu zu annotieren. Wir zeigen, dass siamese CNNs, die mit der GCL-Funktion und den verbesserten Annotationen trainiert wurden, konsistent besser abschneiden als ihre binären Pendants. Unsere auf MSLS trainierten Modelle übertrafen die aktuell besten Methoden, darunter NetVLAD, NetVLAD-SARE, AP-GeM und Patch-NetVLAD, und zeigen eine gute Generalisierungsfähigkeit auf den Datensätzen Pittsburgh30k, Tokyo 24/7, RobotCar Seasons v2 und Extended CMU Seasons. Zudem erfordert die Schulung eines siamesen Netzwerks mittels der GCL-Funktion keine komplexen Paar-Mining-Strategien. Den Quellcode stellen wir unter https://github.com/marialeyvallina/generalized_contrastive_loss zur Verfügung.