ShareGPT4V Großer, Hochwertiger Bild- Und Textdatensatz
Datum
Größe
Veröffentlichungs-URL
Lizenz
CC BY-SA 4.0
Kategorien

Der ShareGPT4V-Datensatz ist ein hochwertiger Datensatz, der aus einer großen Anzahl von Bild-Text-Paaren besteht. Es wird verwendet, um ein visuelles Sprachmodell (VLM) zu trainieren und die Fähigkeiten des Modells beim Bildverständnis und der Textgenerierung zu verbessern. Der Datensatz enthält 1,2 Millionen Bild-Text-Paare, die visuelle und sprachliche Merkmale effektiv aufeinander abstimmen, die Fähigkeit des Modells verbessern, Anweisungen zu befolgen, und mehr akademische Aufgaben wie ScienceQA, TextVQA, SBU usw. einbeziehen. Durch die Einführung dieses Datensatzes erreicht das Modell eine deutliche Verbesserung der Bild-Text-Ausrichtungsfähigkeit, die ein Schlüsselaspekt für das multimodale Darstellungslernen ist.
Dieser Datensatz wurde 2023 vom Shanghai Artificial Intelligence Laboratory der University of Science and Technology of China veröffentlicht.