HyperAIHyperAI
vor 2 Monaten

End-to-End-Lernen tiefer visueller Repräsentationen für die Bildsuche

Albert Gordo; Jon Almazan; Jerome Revaud; Diane Larlus
End-to-End-Lernen tiefer visueller Repräsentationen für die Bildsuche
Abstract

Während das Deep Learning zu einem wesentlichen Bestandteil der besten Methoden für viele Aufgaben im Bereich der Computer Vision geworden ist, hat es bisher keine vergleichbaren Verbesserungen bei der instanzbasierten Bildsuche gebracht. In diesem Artikel argumentieren wir, dass die mangelhaften Ergebnisse von tiefen Methoden bei der Bildsuche auf drei Gründe zurückzuführen sind: i) verrauschte Trainingsdaten, ii) unangemessene tiefes Architektur und iii) suboptimale Trainingsprozedur. Wir behandeln alle drei Probleme.Erstens nutzen wir einen groß angelegten, aber verrauschten Landmarkendatensatz und entwickeln eine automatische Reinigungsmethode, die einen geeigneten Trainingsdatensatz für tiefes Retrieval erstellt. Zweitens bauen wir auf dem neuesten R-MAC Deskriptor auf, zeigen, dass er als eine tiefe und differenzierbare Architektur interpretiert werden kann, und präsentieren Verbesserungen zur Steigerung seiner Leistungsfähigkeit. Drittens trainieren wir dieses Netzwerk mit einer siamesischen Architektur, die drei Ströme mit einem Triplettenverlust kombiniert.Am Ende des Trainingsprozesses erzeugt die vorgeschlagene Architektur durch einen einzigen Vorwärtsdurchgang eine globale Bildrepräsentation, die sich gut für die Bildsuche eignet. Ausführliche Experimente zeigen, dass unser Ansatz signifikant besser abschneidet als frühere Suchmethoden, einschließlich der neuesten Verfahren basierend auf kostspieligem lokalen Deskriptorindexierung und räumlicher Verifizierung. Auf den Datensätzen Oxford 5k, Paris 6k und Holidays erreichen wir durchschnittlich 94,7 %, 96,6 % und 94,8 % Präzision. Unsere Repräsentationen können zudem stark komprimiert werden, indem man Produktquantisierung anwendet, wobei kaum Genauigkeit verloren geht.Für zusätzliche Materialien siehe bitte www.xrce.xerox.com/Deep-Image-Retrieval.