HyperAIHyperAI
vor 2 Monaten

Tiefe Bildsuche: Lernen von globalen Repräsentationen für die Bildersuche

Albert Gordo; Jon Almazan; Jerome Revaud; Diane Larlus
Tiefe Bildsuche: Lernen von globalen Repräsentationen für die Bildersuche
Abstract

Wir schlagen einen neuen Ansatz für die instanzbasierte Bildsuche vor. Dieser erzeugt eine globale und kompakte Fixlängendarstellung für jedes Bild durch die Aggregation vieler regionaler Deskriptoren. Im Gegensatz zu früheren Arbeiten, die vortrainierte tiefe Netze als Blackbox zur Erzeugung von Merkmalen einsetzen, nutzt unsere Methode eine tiefere Architektur, die speziell für die Aufgabe der Bildsuche trainiert wurde. Unser Beitrag ist zweifach: (i) Wir nutzen ein Ranking-Framework, um Faltungsgewichte und Projektionsgewichte zu lernen, die zum Bau der regionalen Merkmale verwendet werden; und (ii) Wir setzen ein Region Proposal Network ein, um zu lernen, welche Regionen zusammengefasst werden sollten, um den endgültigen globalen Deskriptor zu bilden. Wir zeigen, dass die Verwendung sauberer Trainingsdaten entscheidend für den Erfolg unseres Ansatzes ist. Zu diesem Zweck verwenden wir ein groß angelegtes, aber verrauschtes Landmarkendatenset und entwickeln einen automatischen Reinigungsansatz. Die vorgeschlagene Architektur erzeugt eine globale Bildrepräsentation in einem einzigen Vorwärtsdurchgang. Unser Ansatz übertrifft signifikant frühere Ansätze basierend auf globalen Deskriptoren in Standarddatensätzen. Er übersteigt sogar die meisten früheren Arbeiten, die auf kostspieligem lokalen Deskriptorindexing und räumlicher Verifikation basieren. Zusätzliche Materialien sind unter www.xrce.xerox.com/Deep-Image-Retrieval verfügbar.