Et si nous recaptionnions des milliards d'images web avec LLaMA-3 ?

Les paires image-texte extraites par web-crawling sont intrinsèquement bruyantes. Des études antérieures ont démontré que l’alignement sémantique et l’enrichissement des descriptions textuelles de ces paires peuvent considérablement améliorer l’entraînement des modèles dans diverses tâches vision-langage, en particulier la génération d’images à partir de texte. Toutefois, les recherches à grande échelle dans ce domaine restent majoritairement à code fermé. Notre article vise à combler ce manque en mobilisant LLaMA-3, un modèle linguistique de niveau GPT-4, puissant et open-source. Notre pipeline de re-description est simple : nous débutons par la fine-tuning d’un modèle LLaVA-1.5 alimenté par LLaMA-3-8B, puis nous l’utilisons pour re-désigner 1,3 milliard d’images issues du jeu de données DataComp-1B. Nos résultats empiriques confirment que ce jeu de données amélioré, nommé Recap-DataComp-1B, apporte des bénéfices substantiels à l’entraînement de modèles vision-langage avancés. Pour des modèles discriminatifs tels que CLIP, nous observons une amélioration notable de la performance en zéro-shot sur les tâches de récupération cross-modale. Pour des modèles génératifs tels que les Transformers de diffusion pour la génération d’image à partir de texte, les images générées montrent une amélioration significative de l’alignement avec les instructions textuelles des utilisateurs, en particulier pour des requêtes complexes. Notre page de projet est disponible à l’adresse suivante : https://www.haqtu.me/Recap-Datacomp-1B/