ShareGPT4V: Verbesserung großer multimodaler Modelle durch bessere Bildunterschriften

Im Bereich der großen multimodalen Modelle (LMMs) ist eine effiziente Modalitätsausrichtung entscheidend, wird jedoch oft durch die Knappheit hochwertiger Bild-Text-Daten eingeschränkt. Um diese Engpasse zu lösen, stellen wir den Datensatz ShareGPT4V vor, eine bahnbrechende Ressource von großem Umfang mit 1,2 Millionen hochbeschreibenden Bildunterschriften. Dieser übertreffen existierende Datensätze in Vielfalt und Informationsgehalt und umfasst Weltwissen, Objekteigenschaften, räumliche Beziehungen sowie ästhetische Bewertungen. Genauer gesagt stammt ShareGPT4V aus einer sorgfältig ausgewählten Sammlung von 100.000 hochwertigen Bildunterschriften, die von fortgeschrittenen GPT4-Vision-Systemen stammen, und wurde auf 1,2 Millionen erweitert durch ein erstklassiges Bildunterschriftungsmodell, das auf diesem Subset trainiert wurde. ShareGPT4V zeigt zunächst seine Effektivität für die Phase des überwachten Feinabstimmens (SFT), indem es eine gleichgroße Menge detaillierter Bildunterschriften in bestehenden SFT-Datensätzen durch einen Teil unserer hochwertigen Bildunterschriften ersetzt. Dies führt zu erheblichen Verbesserungen bei LMMs wie LLaVA-7B, LLaVA-1.5-13B und Qwen-VL-Chat-7B auf den Benchmarks MME und MMBench, mit jeweiligen Steigerungen von 222,8/22,0/22,3 und 2,7/1,3/1,5. Wir integrieren zudem Daten aus ShareGPT4V sowohl in die Vortrainingsphase als auch in die SFT-Phase und erhalten so ShareGPT4V-7B, ein überlegenes LMM basierend auf einer einfachen Architektur, das bemerkenswerte Leistungen bei den meisten multimodalen Benchmarks erzielt. Dieses Projekt ist unter https://ShareGPT4V.github.io verfügbar und dient als wichtige Ressource zur Förderung der LMM-Gemeinschaft.