HyperAIHyperAI

Command Palette

Search for a command to run...

CompoDiff: Vielseitige Kompositionsbasierte Bildsuche mit latenter Diffusion

Gu Geonmo ; Chun Sanghyuk ; Kim Wonjae ; Jun HeeJae ; Kang Yoohoon ; Yun Sangdoo

Zusammenfassung

Dieses Papier präsentiert ein neues diffusionsbasiertes Modell, CompoDiff, zur Lösung von zero-shot Composed Image Retrieval (ZS-CIR) mit latenter Diffusion. Darüber hinaus wird ein neuer synthetischer Datensatz vorgestellt, der SynthTriplets18M genannt wird und 18,8 Millionen Referenzbilder, Bedingungen und entsprechende Zielbildtripel enthält, um CIR-Modelle zu trainieren. CompoDiff und SynthTriplets18M beheben die Mängel früherer CIR-Ansätze, wie z.B. eine schlechte Generalisierung aufgrund der geringen Datensatzgröße und der begrenzten Vielfalt der Bedingungen. CompoDiff erzielt nicht nur einen neuen Stand der Technik in vier ZS-CIR-Benchmarks, darunter FashionIQ, CIRR, CIRCO und GeneCIS, sondern ermöglicht auch eine vielseitigere und steuerbarere CIR durch die Akzeptanz verschiedener Bedingungen, wie negativer Text und Bildmaske-Bedingungen. CompoDiff zeigt außerdem die Steuerbarkeit der Bedingungsstärke zwischen Text- und Bildabfragen sowie den Kompromiss zwischen Inferenzgeschwindigkeit und Leistung auf, was mit existierenden CIR-Methoden nicht möglich ist. Der Code und der Datensatz sind unter https://github.com/navervision/CompoDiff verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CompoDiff: Vielseitige Kompositionsbasierte Bildsuche mit latenter Diffusion | Paper | HyperAI