CompoDiff : Recherche d'images composites polyvalente avec diffusion latente

Ce document propose un nouveau modèle basé sur la diffusion, appelé CompoDiff, pour résoudre le problème de recherche d'images composées à vue zéro (ZS-CIR) en utilisant la diffusion latente. Le présent document introduit également un nouveau jeu de données synthétiques, nommé SynthTriplets18M, comprenant 18,8 millions d'images de référence, de conditions et de triplets d'images cibles correspondants pour entraîner des modèles CIR. CompoDiff et SynthTriplets18M remédient aux lacunes des approches CIR précédentes, telles que la faible généralisabilité due à l'échelle limitée des jeux de données et au nombre restreint de types de conditions. Non seulement CompoDiff atteint un nouvel état de l'art sur quatre benchmarks ZS-CIR, y compris FashionIQ, CIRR, CIRCO et GeneCIS, mais il permet également une recherche d'images composées plus polyvalente et contrôlable en acceptant diverses conditions, comme du texte négatif et des masques d'image. CompoDiff montre également la contrôlabilité de la force des conditions entre les requêtes textuelles et les requêtes d'image ainsi que le compromis entre la vitesse d'inférence et les performances, ce qui n'est pas possible avec les méthodes CIR existantes. Le code source et le jeu de données sont disponibles à l'adresse suivante : https://github.com/navervision/CompoDiff