ShareGPT4V : Amélioration des grands modèles multi-modaux grâce à de meilleures légendes

Dans le domaine des grands modèles multimodaux (LMMs), l'alignement efficace des modalités est crucial mais souvent limité par la rareté de données image-texte de haute qualité. Pour surmonter cette contrainte, nous présentons le jeu de données ShareGPT4V, une ressource à grande échelle pionnière comprenant 1,2 million de légendes hautement descriptives, qui dépasse les jeux de données existants en termes de diversité et de contenu informatif, couvrant les connaissances mondiales, les propriétés d'objets, les relations spatiales et les évaluations esthétiques. Plus précisément, ShareGPT4V provient d'un ensemble curatif de 100 000 légendes de haute qualité collectées à partir du système avancé GPT4-Vision et a été étendu à 1,2 million grâce à un modèle de légende exceptionnel formé sur ce sous-ensemble. ShareGPT4V démontre d'abord son efficacité pour la phase de réglage supervisé (SFT), en remplaçant une quantité équivalente de légendes détaillées dans les jeux de données SFT existants par un sous-ensemble de nos légendes de haute qualité, améliorant considérablement les performances des LMMs tels que LLaVA-7B, LLaVA-1.5-13B et Qwen-VL-Chat-7B sur les benchmarks MME et MMBench, avec des gains respectifs de 222,8/22,0/22,3 et 2,7/1,3/1,5. Nous intégrons ensuite les données ShareGPT4V aux phases d'apprentissage préalable et de réglage supervisé (SFT), obtenons ainsi ShareGPT4V-7B, un modèle multimodal supérieur basé sur une architecture simple qui présente des performances remarquables sur la majorité des benchmarks multimodaux. Ce projet est disponible à l'adresse https://ShareGPT4V.github.io pour servir de ressource clé au développement de la communauté LMMs.