il y a 11 jours

Et si nous recaptionnions des milliards d'images web avec LLaMA-3 ?

Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie

Voir les détails de l'article

Et si nous recaptionnions des milliards d'images web avec LLaMA-3 ?

Résumé

Les paires image-texte extraites par web-crawling sont intrinsèquement bruyantes. Des études antérieures ont démontré que l’alignement sémantique et l’enrichissement des descriptions textuelles de ces paires peuvent considérablement améliorer l’entraînement des modèles dans diverses tâches vision-langage, en particulier la génération d’images à partir de texte. Toutefois, les recherches à grande échelle dans ce domaine restent majoritairement à code fermé. Notre article vise à combler ce manque en mobilisant LLaMA-3, un modèle linguistique de niveau GPT-4, puissant et open-source. Notre pipeline de re-description est simple : nous débutons par la fine-tuning d’un modèle LLaVA-1.5 alimenté par LLaMA-3-8B, puis nous l’utilisons pour re-désigner 1,3 milliard d’images issues du jeu de données DataComp-1B. Nos résultats empiriques confirment que ce jeu de données amélioré, nommé Recap-DataComp-1B, apporte des bénéfices substantiels à l’entraînement de modèles vision-langage avancés. Pour des modèles discriminatifs tels que CLIP, nous observons une amélioration notable de la performance en zéro-shot sur les tâches de récupération cross-modale. Pour des modèles génératifs tels que les Transformers de diffusion pour la génération d’image à partir de texte, les images générées montrent une amélioration significative de l’alignement avec les instructions textuelles des utilisateurs, en particulier pour des requêtes complexes. Notre page de projet est disponible à l’adresse suivante : https://www.haqtu.me/Recap-Datacomp-1B/