HyperAIHyperAI
vor 2 Monaten

NetVLAD: CNN-Architektur für schwach überwachte Ortserkennung

Relja Arandjelović; Petr Gronat; Akihiko Torii; Tomas Pajdla; Josef Sivic
NetVLAD: CNN-Architektur für schwach überwachte Ortserkennung
Abstract

Wir adressieren das Problem der großflächigen visuellen Ortsidentifikation, bei dem es darum geht, den Standort eines gegebenen Abfragefotos schnell und präzise zu erkennen. Wir präsentieren die folgenden drei wesentlichen Beiträge:Erstens entwickeln wir eine Faltungsneuronale-Netz-Architektur (Convolutional Neural Network, CNN), die direkt für die Aufgabe der Ortsidentifikation von Anfang bis Ende trainiert werden kann. Das Hauptkomponente dieser Architektur, NetVLAD, ist eine neue verallgemeinerte VLAD-Schicht, inspiriert durch die "Vector of Locally Aggregated Descriptors" (Vektor lokal aggregierter Deskriptoren) Bildrepräsentation, die in der Bildsuche häufig verwendet wird. Diese Schicht kann leicht in jede CNN-Architektur integriert werden und eignet sich für das Training durch Backpropagation.Zweitens entwickeln wir ein Trainingsverfahren, das auf einem neuen schwach überwachten Rangverlust basiert, um die Parameter der Architektur von Anfang bis Ende aus Bildern zu lernen, die denselben Ort zu unterschiedlichen Zeitpunkten zeigen und von Google Street View Time Machine heruntergeladen wurden.Schließlich zeigen wir, dass die vorgeschlagene Architektur erheblich bessere Ergebnisse als nicht gelernte Bildrepräsentationen und vordefinierte CNN-Deskriptoren auf zwei anspruchsvollen Benchmarks für Ortsidentifikation erzielt und den aktuellen Stand der Technik kompakter Bildrepräsentationen auf Standard-Bildsuchbenchmarks verbessert.