HyperAIHyperAI

Command Palette

Search for a command to run...

iSEARLE: Verbesserung der textuellen Inversion für die zero-shot-komponierte Bildsuche

Lorenzo Agnolucci Alberto Baldrati Alberto Del Bimbo Marco Bertini

Zusammenfassung

Bei einer Abfrage, die aus einem Referenzbild und einer relativen Bildunterschrift besteht, zielt Composed Image Retrieval (CIR) darauf ab, Zielbilder zu ermitteln, die visuell dem Referenzbild ähnlich sind und gleichzeitig die in der relativen Bildunterschrift angegebenen Änderungen berücksichtigen. Die Abhängigkeit von überwachten Methoden von arbeitsintensiven, manuell beschrifteten Datensätzen behindert ihre weitreichende Anwendbarkeit. In dieser Arbeit führen wir eine neue Aufgabe ein, Zero-Shot CIR (ZS-CIR), die CIR ohne den Bedarf an einem beschrifteten Trainingsdatensatz adressiert. Wir schlagen einen Ansatz namens iSEARLE (improved zero-Shot comPosed imAge Retrieval with textuaL invErsion) vor, der das Visuelle des Referenzbildes in ein Pseudo-Worttoken im CLIP-Token-Embedding-Raum abbildet und es mit der relativen Bildunterschrift kombiniert. Um Forschung auf dem Gebiet des ZS-CIR zu fördern, präsentieren wir einen offenen Benchmarks-Datensatz namens CIRCO (Composed Image Retrieval on Common Objects in context), der als erster CIR-Datensatz jedes Abfragebeispiel mit mehreren Ground Truths und einer semantischen Kategorisierung versehen ist. Die experimentellen Ergebnisse zeigen, dass iSEARLE den Stand der Technik auf drei verschiedenen CIR-Datensätzen – FashionIQ, CIRR und dem vorgeschlagenen CIRCO – sowie in zwei zusätzlichen Evaluationsrichtungen, nämlich Domänenkonvertierung und Objektkomposition, erreicht. Der Datensatz, der Code und das Modell sind öffentlich verfügbar unter https://github.com/miccunifi/SEARLE.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
iSEARLE: Verbesserung der textuellen Inversion für die zero-shot-komponierte Bildsuche | Paper | HyperAI