vor 2 Monaten

Zero-Shot Composed Image Retrieval mit textueller Inversion

Baldrati, Alberto ; Agnolucci, Lorenzo ; Bertini, Marco ; Del Bimbo, Alberto

Abstract

Composed Image Retrieval (CIR) strebt danach, ein Zielbild basierend auf einer Abfrage zu ermitteln, die aus einem Referenzbild und einer relativen Bildunterschrift besteht, die den Unterschied zwischen den beiden Bildern beschreibt. Die hohen Anstrengungen und Kosten, die für das Beschriften von Datensätzen für CIR erforderlich sind, behindern die weit verbreitete Nutzung bestehender Methoden, da diese auf überwachtem Lernen basieren. In dieser Arbeit schlagen wir eine neue Aufgabe vor, Zero-Shot CIR (ZS-CIR), die darauf abzielt, CIR ohne ein beschriftetes Trainingsdataset durchzuführen. Unser Ansatz, der als zero-Shot composEd imAge Retrieval with textuaL invErsion (SEARLE) bezeichnet wird, ordnet die visuellen Merkmale des Referenzbildes einem Pseudo-Worttoken im CLIP-Token-Embedding-Raum zu und integriert es mit der relativen Bildunterschrift. Um Forschung zu ZS-CIR zu unterstützen, stellen wir einen offenen Benchmark-Datensatz vor, der Composed Image Retrieval on Common Objects in context (CIRCO) genannt wird. Dies ist der erste Datensatz für CIR, der mehrere Grundwahrheiten für jede Abfrage enthält. Die Experimente zeigen, dass SEARLE eine bessere Leistung als die Baseline-Methoden auf den beiden Hauptdatensätzen für CIR-Aufgaben, FashionIQ und CIRR, sowie auf dem vorgeschlagenen CIRCO erzielt. Der Datensatz, der Code und das Modell sind öffentlich verfügbar unter https://github.com/miccunifi/SEARLE.