HyperAIHyperAI
vor 17 Tagen

Lernen von token-basierten Darstellungen für die Bildretrieval

Hui Wu, Min Wang, Wengang Zhou, Yang Hu, Houqiang Li
Lernen von token-basierten Darstellungen für die Bildretrieval
Abstract

Bei der Bildretrieval-Aufgabe haben tiefgreifende lokale Merkmale, die datengetrieben erlernt wurden, sich als wirksam zur Verbesserung der Retrieval-Leistung erwiesen. Um eine effiziente Suche in großen Bild-Datenbanken zu ermöglichen, quantisieren einige Ansätze tiefgreifende lokale Merkmale mit einem großen Codebuch und vergleichen Bilder mittels aggregierter Match-Kerne. Allerdings weisen diese Verfahren eine nicht unerhebliche Komplexität auf und erfordern einen erheblichen Speicherplatz, was ihre Fähigkeit einschränkt, Merkmalslernprozesse und Aggregation gemeinsam durchzuführen. Um kompakte globale Darstellungen zu erzeugen, ohne dabei die Fähigkeit zur regionalen Übereinstimmung zu verlieren, schlagen wir einen einheitlichen Rahmen vor, der die Lernung lokaler Merkmalsdarstellungen und deren Aggregation gemeinsam optimiert. In unserem Rahmen extrahieren wir zunächst tiefgreifende lokale Merkmale mittels Convolutional Neural Networks (CNNs). Anschließend entwerfen wir ein Tokenizer-Modul, das diese Merkmale in eine geringe Anzahl visueller Tokens aggregiert, wobei jeder Token einem spezifischen visuellen Muster entspricht. Dies hilft, Hintergrundrauschen zu reduzieren und diskriminativere Regionen im Bild zu erfassen. Anschließend wird ein Verbesserungsblock eingeführt, der die visuellen Tokens mittels Selbst- und Kreuz-Attention stärkt. Schließlich werden die verschiedenen visuellen Tokens zusammengefügt, um eine kompakte globale Darstellung zu generieren. Der gesamte Rahmen wird end-to-end mit bildbasierten Etiketten trainiert. Um die Leistung unseres Ansatzes zu evaluieren, wurden umfangreiche Experimente durchgeführt, die zeigen, dass er die derzeit besten Methoden auf den Datensätzen Revisited Oxford und Paris übertrifft.