HyperAIHyperAI

Command Palette

Search for a command to run...

Zero-Shot Composed Image Retrieval mit textueller Inversion

Baldrati Alberto ; Agnolucci Lorenzo ; Bertini Marco ; Del Bimbo Alberto

Zusammenfassung

Composed Image Retrieval (CIR) strebt danach, ein Zielbild basierend auf einer Abfrage zu ermitteln, die aus einem Referenzbild und einer relativen Bildunterschrift besteht, die den Unterschied zwischen den beiden Bildern beschreibt. Die hohen Anstrengungen und Kosten, die für das Beschriften von Datensätzen für CIR erforderlich sind, behindern die weit verbreitete Nutzung bestehender Methoden, da diese auf überwachtem Lernen basieren. In dieser Arbeit schlagen wir eine neue Aufgabe vor, Zero-Shot CIR (ZS-CIR), die darauf abzielt, CIR ohne ein beschriftetes Trainingsdataset durchzuführen. Unser Ansatz, der als zero-Shot composEd imAge Retrieval with textuaL invErsion (SEARLE) bezeichnet wird, ordnet die visuellen Merkmale des Referenzbildes einem Pseudo-Worttoken im CLIP-Token-Embedding-Raum zu und integriert es mit der relativen Bildunterschrift. Um Forschung zu ZS-CIR zu unterstützen, stellen wir einen offenen Benchmark-Datensatz vor, der Composed Image Retrieval on Common Objects in context (CIRCO) genannt wird. Dies ist der erste Datensatz für CIR, der mehrere Grundwahrheiten für jede Abfrage enthält. Die Experimente zeigen, dass SEARLE eine bessere Leistung als die Baseline-Methoden auf den beiden Hauptdatensätzen für CIR-Aufgaben, FashionIQ und CIRR, sowie auf dem vorgeschlagenen CIRCO erzielt. Der Datensatz, der Code und das Modell sind öffentlich verfügbar unter https://github.com/miccunifi/SEARLE.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp