CoVR-2 : Construction Automatique de Données pour la Recherche de Vidéos Composées

La recherche d'images composées (Composed Image Retrieval, CoIR) a récemment gagné en popularité en tant que tâche qui prend en compte à la fois des requêtes textuelles et des requêtes d'images pour rechercher des images pertinentes dans une base de données. La plupart des approches de CoIR nécessitent des jeux de données annotés manuellement, comprenant des triplets image-texte-image, où le texte décrit une modification entre l'image de requête et l'image cible. Cependant, l'annotation manuelle de ces triplets CoIR est coûteuse et entrave la scalabilité. Dans ce travail, nous proposons plutôt une méthodologie d'élaboration automatique de jeux de données scalable, capable de générer des triplets à partir de paires vidéo-sous-titres tout en élargissant le champ d'application de la tâche pour inclure la recherche vidéo composée (Composed Video Retrieval, CoVR).Pour ce faire, nous extrayons des paires vidéo-sous-titres similaires à partir d'une grande base de données et utilisons un grand modèle linguistique pour générer le texte correspondant à la modification. En appliquant cette méthodologie à la vaste collection WebVid2M, nous construisons automatiquement notre jeu de données WebVid-CoVR, qui comprend 1,6 million de triplets. De plus, nous introduisons un nouveau benchmark pour CoVR avec un ensemble d'évaluation annoté manuellement, accompagné de résultats baselines. Nous validons également que notre méthodologie s'applique également aux paires image-sous-titres en générant 3,3 millions de triplets d'entraînement CoIR à partir du jeu de données Conceptual Captions.Notre modèle repose sur le pré-entraînement BLIP-2, qu'il adapte à la recherche vidéo (ou image) composée et incorpore une perte supplémentaire pour la récupération des sous-titres afin d'exploiter une supervision supplémentaire au-delà du triplet. Nous fournissons une analyse détaillée des choix conceptuels sur notre nouveau benchmark CoVR par le biais d'études ablatives exhaustives. Nos expériences montrent également que l'entraînement d'un modèle CoVR sur nos jeux de données se transfère efficacement à CoIR, améliorant les performances actuelles dans un cadre zero-shot sur les benchmarks CIRR, FashionIQ et CIRCO.Notre code source, nos jeux de données et nos modèles sont librement accessibles sur https://imagine.enpc.fr/~ventural/covr/.