HyperAIHyperAI

Command Palette

Search for a command to run...

Et si nous recaptionnions des milliards d'images web avec LLaMA-3 ?

Résumé

Les paires image-texte extraites par web-crawling sont intrinsèquement bruyantes. Des études antérieures ont démontré que l’alignement sémantique et l’enrichissement des descriptions textuelles de ces paires peuvent considérablement améliorer l’entraînement des modèles dans diverses tâches vision-langage, en particulier la génération d’images à partir de texte. Toutefois, les recherches à grande échelle dans ce domaine restent majoritairement à code fermé. Notre article vise à combler ce manque en mobilisant LLaMA-3, un modèle linguistique de niveau GPT-4, puissant et open-source. Notre pipeline de re-description est simple : nous débutons par la fine-tuning d’un modèle LLaVA-1.5 alimenté par LLaMA-3-8B, puis nous l’utilisons pour re-désigner 1,3 milliard d’images issues du jeu de données DataComp-1B. Nos résultats empiriques confirment que ce jeu de données amélioré, nommé Recap-DataComp-1B, apporte des bénéfices substantiels à l’entraînement de modèles vision-langage avancés. Pour des modèles discriminatifs tels que CLIP, nous observons une amélioration notable de la performance en zéro-shot sur les tâches de récupération cross-modale. Pour des modèles génératifs tels que les Transformers de diffusion pour la génération d’image à partir de texte, les images générées montrent une amélioration significative de l’alignement avec les instructions textuelles des utilisateurs, en particulier pour des requêtes complexes. Notre page de projet est disponible à l’adresse suivante : https://www.haqtu.me/Recap-Datacomp-1B/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Et si nous recaptionnions des milliards d'images web avec LLaMA-3 ? | Articles | HyperAI