HyperAIHyperAI

Command Palette

Search for a command to run...

ShareGPT4V: Verbesserung großer multimodaler Modelle durch bessere Bildunterschriften

Lin Chen Jinsong Li Xiaoyi Dong Pan Zhang Conghui He Jiaqi Wang Feng Zhao Dahua Lin

Zusammenfassung

Im Bereich der großen multimodalen Modelle (LMMs) ist eine effiziente Modalitätsausrichtung entscheidend, wird jedoch oft durch die Knappheit hochwertiger Bild-Text-Daten eingeschränkt. Um diese Engpasse zu lösen, stellen wir den Datensatz ShareGPT4V vor, eine bahnbrechende Ressource von großem Umfang mit 1,2 Millionen hochbeschreibenden Bildunterschriften. Dieser übertreffen existierende Datensätze in Vielfalt und Informationsgehalt und umfasst Weltwissen, Objekteigenschaften, räumliche Beziehungen sowie ästhetische Bewertungen. Genauer gesagt stammt ShareGPT4V aus einer sorgfältig ausgewählten Sammlung von 100.000 hochwertigen Bildunterschriften, die von fortgeschrittenen GPT4-Vision-Systemen stammen, und wurde auf 1,2 Millionen erweitert durch ein erstklassiges Bildunterschriftungsmodell, das auf diesem Subset trainiert wurde. ShareGPT4V zeigt zunächst seine Effektivität für die Phase des überwachten Feinabstimmens (SFT), indem es eine gleichgroße Menge detaillierter Bildunterschriften in bestehenden SFT-Datensätzen durch einen Teil unserer hochwertigen Bildunterschriften ersetzt. Dies führt zu erheblichen Verbesserungen bei LMMs wie LLaVA-7B, LLaVA-1.5-13B und Qwen-VL-Chat-7B auf den Benchmarks MME und MMBench, mit jeweiligen Steigerungen von 222,8/22,0/22,3 und 2,7/1,3/1,5. Wir integrieren zudem Daten aus ShareGPT4V sowohl in die Vortrainingsphase als auch in die SFT-Phase und erhalten so ShareGPT4V-7B, ein überlegenes LMM basierend auf einer einfachen Architektur, das bemerkenswerte Leistungen bei den meisten multimodalen Benchmarks erzielt. Dieses Projekt ist unter https://ShareGPT4V.github.io verfügbar und dient als wichtige Ressource zur Förderung der LMM-Gemeinschaft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ShareGPT4V: Verbesserung großer multimodaler Modelle durch bessere Bildunterschriften | Paper | HyperAI