ShareGPT4V Ensemble De Données D'images Et De Textes De Haute Qualité À Grande Échelle
Date
Taille
URL de publication
Licence
CC BY-SA 4.0

L'ensemble de données ShareGPT4V est un ensemble de données de haute qualité composé d'un grand nombre de paires image-texte. Il est utilisé pour former un modèle de langage visuel (VLM) afin d'améliorer les capacités du modèle en matière de compréhension d'images et de génération de texte. L'ensemble de données contient 1,2 million de paires image-texte qui alignent efficacement les caractéristiques visuelles et linguistiques, améliorent la capacité du modèle à suivre les instructions et intègrent davantage de tâches académiques telles que ScienceQA, TextVQA, SBU, etc. En introduisant cet ensemble de données, le modèle obtient une amélioration significative de la capacité d'alignement image-texte, qui est un aspect clé pour l'apprentissage de la représentation multimodale.
Cet ensemble de données a été publié par l'Université des sciences et technologies de Chine, Laboratoire d'intelligence artificielle de Shanghai en 2023.