Pré-entraînez comme pour l'inférence : l'ajustement masqué améliore la recherche d'images composites à zéro-shot

La recherche d'images composites à zéro coup (ZS-CIR), qui consiste à récupérer une image cible en utilisant une modification textuelle et une image de référence comme requête, sans l'étiquetage de triplets, a suscité de plus en plus d'intérêt dans le domaine de l'exploration de données. Les recherches actuelles en ZS-CIR s'appuient principalement sur la capacité de généralisation des modèles pré-entraînés vision-langue, tels que CLIP. Cependant, il existe des écarts considérables entre les modèles pré-entraînés vision-langue et les tâches CIR, où les modèles vision-langue se concentrent sur l'apprentissage des similarités tandis que CIR vise à apprendre les modifications de l'image guidées par le texte.Dans cet article, nous présentons une nouvelle approche d'ajustement masqué non étiqueté et pré-entraîné, qui réduit l'écart entre le modèle pré-entraîné vision-langue et la tâche CIR descendante. Tout d'abord, pour réduire cet écart, nous reformulons l'apprentissage par contraste du modèle vision-langue en tant que tâche CIR, où nous masquons aléatoirement des patches d'image d'entrée pour générer un triplet $\langle$image masquée, texte, image$\rangle$ à partir d'un couple image-texte. Ensuite, nous proposons une méthode simple mais novatrice d'ajustement masqué pré-entraînée, qui utilise le texte et l'image masquée pour apprendre les modifications de l'image originale. Grâce à ce design simple, l'ajustement masqué proposé peut mieux saisir les modifications guidées par le texte avec un niveau de détail fin.Des résultats expérimentaux exhaustifs démontrent la supériorité significative de notre approche par rapport aux modèles baselines sur quatre jeux de données ZS-CIR, notamment FashionIQ, CIRR, CIRCO et GeneCIS. Nos codes sont disponibles sur https://github.com/Chen-Junyang-cn/PLI.