HyperAIHyperAI
vor 2 Monaten

iSEARLE: Verbesserung der textuellen Inversion für die zero-shot-komponierte Bildsuche

Agnolucci, Lorenzo ; Baldrati, Alberto ; Bertini, Marco ; Del Bimbo, Alberto
iSEARLE: Verbesserung der textuellen Inversion für die zero-shot-komponierte Bildsuche
Abstract

Bei einer Abfrage, die aus einem Referenzbild und einer relativen Bildunterschrift besteht, zielt Composed Image Retrieval (CIR) darauf ab, Zielbilder zu ermitteln, die visuell dem Referenzbild ähnlich sind und gleichzeitig die in der relativen Bildunterschrift angegebenen Änderungen berücksichtigen. Die Abhängigkeit von überwachten Methoden von arbeitsintensiven, manuell beschrifteten Datensätzen behindert ihre weitreichende Anwendbarkeit. In dieser Arbeit führen wir eine neue Aufgabe ein, Zero-Shot CIR (ZS-CIR), die CIR ohne den Bedarf an einem beschrifteten Trainingsdatensatz adressiert. Wir schlagen einen Ansatz namens iSEARLE (improved zero-Shot comPosed imAge Retrieval with textuaL invErsion) vor, der das Visuelle des Referenzbildes in ein Pseudo-Worttoken im CLIP-Token-Embedding-Raum abbildet und es mit der relativen Bildunterschrift kombiniert. Um Forschung auf dem Gebiet des ZS-CIR zu fördern, präsentieren wir einen offenen Benchmarks-Datensatz namens CIRCO (Composed Image Retrieval on Common Objects in context), der als erster CIR-Datensatz jedes Abfragebeispiel mit mehreren Ground Truths und einer semantischen Kategorisierung versehen ist. Die experimentellen Ergebnisse zeigen, dass iSEARLE den Stand der Technik auf drei verschiedenen CIR-Datensätzen – FashionIQ, CIRR und dem vorgeschlagenen CIRCO – sowie in zwei zusätzlichen Evaluationsrichtungen, nämlich Domänenkonvertierung und Objektkomposition, erreicht. Der Datensatz, der Code und das Modell sind öffentlich verfügbar unter https://github.com/miccunifi/SEARLE.

iSEARLE: Verbesserung der textuellen Inversion für die zero-shot-komponierte Bildsuche | Neueste Forschungsarbeiten | HyperAI