vor 16 Tagen

Was wäre, wenn wir Milliarden von Web-Bildern mit LLaMA-3 neu beschriften würden?

Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie

Details der Forschungsarbeit anzeigen

Was wäre, wenn wir Milliarden von Web-Bildern mit LLaMA-3 neu beschriften würden?

Abstract

Web-crawled-Bild-Text-Paare sind inhärent verrauscht. Vorangegangene Studien zeigen, dass eine semantische Ausrichtung und Bereicherung der Textbeschreibungen dieser Paare das Training von Modellen für verschiedene Vision-Language-Aufgaben erheblich verbessern kann, insbesondere bei der Text-zu-Bild-Generierung. Allerdings bleiben großskalige Untersuchungen in diesem Bereich überwiegend geschlossen. Unser Paper zielt darauf ab, diese Lücke im Forschungsgemeinschaftsengagement zu schließen, indem wir das leistungsstarke und quelloffene LLaMA-3, ein LLM auf GPT-4-Niveau, nutzt. Unser Re-Kaptioning-Pipeline ist einfach gestaltet: Zunächst fine-tunen wir ein LLaVA-1.5, das auf LLaMA-3-8B basiert, und verwenden es anschließend, um 1,3 Milliarden Bilder aus dem DataComp-1B-Datensatz neu zu beschreiben. Unsere empirischen Ergebnisse bestätigen, dass dieser verbesserte Datensatz, Recap-DataComp-1B, erhebliche Vorteile beim Training fortschrittlicher Vision-Language-Modelle bietet. Für diskriminative Modelle wie CLIP beobachten wir eine verbesserte Zero-Shot-Leistung bei Kreuzmodalauswertungsaufgaben. Für generative Modelle wie Text-zu-Bild-Diffusions-Transformer zeigen die generierten Bilder eine signifikante Verbesserung der Übereinstimmung mit den Benutzeranweisungen, insbesondere bei komplexen Anfragen. Unsere Projektseite ist unter https://www.haqtu.me/Recap-Datacomp-1B/ zu finden.