Was wäre, wenn wir Milliarden von Web-Bildern mit LLaMA-3 neu beschriften würden?

Web-crawled-Bild-Text-Paare sind inhärent verrauscht. Vorangegangene Studien zeigen, dass eine semantische Ausrichtung und Bereicherung der Textbeschreibungen dieser Paare das Training von Modellen für verschiedene Vision-Language-Aufgaben erheblich verbessern kann, insbesondere bei der Text-zu-Bild-Generierung. Allerdings bleiben großskalige Untersuchungen in diesem Bereich überwiegend geschlossen. Unser Paper zielt darauf ab, diese Lücke im Forschungsgemeinschaftsengagement zu schließen, indem wir das leistungsstarke und quelloffene LLaMA-3, ein LLM auf GPT-4-Niveau, nutzt. Unser Re-Kaptioning-Pipeline ist einfach gestaltet: Zunächst fine-tunen wir ein LLaVA-1.5, das auf LLaMA-3-8B basiert, und verwenden es anschließend, um 1,3 Milliarden Bilder aus dem DataComp-1B-Datensatz neu zu beschreiben. Unsere empirischen Ergebnisse bestätigen, dass dieser verbesserte Datensatz, Recap-DataComp-1B, erhebliche Vorteile beim Training fortschrittlicher Vision-Language-Modelle bietet. Für diskriminative Modelle wie CLIP beobachten wir eine verbesserte Zero-Shot-Leistung bei Kreuzmodalauswertungsaufgaben. Für generative Modelle wie Text-zu-Bild-Diffusions-Transformer zeigen die generierten Bilder eine signifikante Verbesserung der Übereinstimmung mit den Benutzeranweisungen, insbesondere bei komplexen Anfragen. Unsere Projektseite ist unter https://www.haqtu.me/Recap-Datacomp-1B/ zu finden.