CompoDiff: Vielseitige Kompositionsbasierte Bildsuche mit latenter Diffusion

Dieses Papier präsentiert ein neues diffusionsbasiertes Modell, CompoDiff, zur Lösung von zero-shot Composed Image Retrieval (ZS-CIR) mit latenter Diffusion. Darüber hinaus wird ein neuer synthetischer Datensatz vorgestellt, der SynthTriplets18M genannt wird und 18,8 Millionen Referenzbilder, Bedingungen und entsprechende Zielbildtripel enthält, um CIR-Modelle zu trainieren. CompoDiff und SynthTriplets18M beheben die Mängel früherer CIR-Ansätze, wie z.B. eine schlechte Generalisierung aufgrund der geringen Datensatzgröße und der begrenzten Vielfalt der Bedingungen. CompoDiff erzielt nicht nur einen neuen Stand der Technik in vier ZS-CIR-Benchmarks, darunter FashionIQ, CIRR, CIRCO und GeneCIS, sondern ermöglicht auch eine vielseitigere und steuerbarere CIR durch die Akzeptanz verschiedener Bedingungen, wie negativer Text und Bildmaske-Bedingungen. CompoDiff zeigt außerdem die Steuerbarkeit der Bedingungsstärke zwischen Text- und Bildabfragen sowie den Kompromiss zwischen Inferenzgeschwindigkeit und Leistung auf, was mit existierenden CIR-Methoden nicht möglich ist. Der Code und der Datensatz sind unter https://github.com/navervision/CompoDiff verfügbar.