Récupération d'images à partir de textes composés sans apprentissage supervisé

Dans cet article, nous abordons le problème de la recherche d'images composites (CIR), qui vise à former un modèle capable de fusionner des informations multimodales, par exemple du texte et des images, afin de récupérer avec précision les images correspondant à la requête, ce qui étend la capacité d'expression de l'utilisateur. Nous apportons les contributions suivantes : (i) nous initions une chaîne de traitement évolutif pour construire automatiquement des ensembles de données destinés à l'entraînement du modèle CIR, en exploitant simplement un ensemble de données à grande échelle d'images-texte, par exemple un sous-ensemble de LAION-5B ; (ii) nous présentons un modèle d'agrégation adaptative basé sur les transformateurs, appelé TransAgg, qui utilise un mécanisme de fusion simple mais efficace pour combiner de manière adaptative les informations provenant de diverses modalités ; (iii) nous menons des études d'ablation approfondies pour examiner l'utilité de notre procédure proposée de construction des données et l'efficacité des composants clés dans TransAgg ; (iv) lors de l'évaluation sur des benchmarks publics dans un scénario zero-shot, c'est-à-dire en formant le modèle sur des ensembles de données construits automatiquement puis en effectuant directement l'inférence sur des ensembles de données cibles amont tels que CIRR et FashionIQ, notre approche proposée soit se compare favorablement aux modèles existants les plus performants (SOTA), soit les dépasse significativement. Page du projet : https://code-kunkun.github.io/ZS-CIR/