Zur unvernünftigen Wirksamkeit von Zentroiden bei der Bildretrieval

Die Aufgabe des Bildretrievals besteht darin, ähnliche Bilder zu einem Abfragebild aus einer Menge von Galerie-(Datenbank-)Bildern zu finden. Solche Systeme werden in verschiedenen Anwendungen eingesetzt, beispielsweise bei der Personen-Identifikation über verschiedene Kameras (Person Re-Identification, ReID) oder visuellen Produkt-Suchen. Trotz intensiver Forschung und Entwicklung von Retrieval-Modellen bleibt diese Aufgabe weiterhin herausfordernd, hauptsächlich aufgrund großer intra-klassischer Varianz, verursacht durch Veränderungen des Blickwinkels, der Beleuchtung, Hintergrundstörungen oder Verdeckung, während die inter-klassische Varianz relativ gering sein kann. Ein großer Teil der aktuellen Forschung konzentriert sich auf die Entwicklung robusterer Merkmale und auf die Anpassung von Ziel-Funktionen, meist basierend auf dem Triplet-Loss. Einige Arbeiten experimentieren mit der Verwendung von Zentroiden-/Proxy-Darstellungen einer Klasse, um Probleme bezüglich Berechnungsgeschwindigkeit und die Auswahl schwieriger (hard) Samples im Zusammenhang mit dem Triplet-Loss zu verringern. Diese Ansätze werden jedoch ausschließlich im Trainingsprozess verwendet und während der Retrieval-Phase verworfen. In diesem Artikel schlagen wir vor, die mittlere Zentroid-Darstellung sowohl im Trainings- als auch im Retrieval-Prozess zu nutzen. Eine solche aggregierte Darstellung ist robuster gegenüber Ausreißern und führt zu stabileren Merkmalen. Da jede Klasse durch eine einzige Embedding – den Klassen-Zentroid – repräsentiert wird, sinken sowohl die Retrieval-Zeit als auch die Speicheranforderungen erheblich. Die Aggregation mehrerer Embeddings reduziert den Suchraum signifikant, da die Anzahl der potenziellen Zielvektoren verringert wird, was die Methode besonders geeignet für Produktionsanwendungen macht. Umfassende Experimente an zwei ReID- und einer Fashion-Retrieval-Datensätzen belegen die Wirksamkeit unseres Ansatzes, der die derzeitige State-of-the-Art übertrifft. Wir schlagen die Verwendung von Zentroid-Training und -Retrieval als eine praktikable Methode sowohl für Anwendungen im Bereich Fashion Retrieval als auch für ReID vor.