HyperAIHyperAI

Command Palette

Search for a command to run...

Was wäre, wenn wir Milliarden von Web-Bildern mit LLaMA-3 neu beschriften würden?

Zusammenfassung

Web-crawled-Bild-Text-Paare sind inhärent verrauscht. Vorangegangene Studien zeigen, dass eine semantische Ausrichtung und Bereicherung der Textbeschreibungen dieser Paare das Training von Modellen für verschiedene Vision-Language-Aufgaben erheblich verbessern kann, insbesondere bei der Text-zu-Bild-Generierung. Allerdings bleiben großskalige Untersuchungen in diesem Bereich überwiegend geschlossen. Unser Paper zielt darauf ab, diese Lücke im Forschungsgemeinschaftsengagement zu schließen, indem wir das leistungsstarke und quelloffene LLaMA-3, ein LLM auf GPT-4-Niveau, nutzt. Unser Re-Kaptioning-Pipeline ist einfach gestaltet: Zunächst fine-tunen wir ein LLaVA-1.5, das auf LLaMA-3-8B basiert, und verwenden es anschließend, um 1,3 Milliarden Bilder aus dem DataComp-1B-Datensatz neu zu beschreiben. Unsere empirischen Ergebnisse bestätigen, dass dieser verbesserte Datensatz, Recap-DataComp-1B, erhebliche Vorteile beim Training fortschrittlicher Vision-Language-Modelle bietet. Für diskriminative Modelle wie CLIP beobachten wir eine verbesserte Zero-Shot-Leistung bei Kreuzmodalauswertungsaufgaben. Für generative Modelle wie Text-zu-Bild-Diffusions-Transformer zeigen die generierten Bilder eine signifikante Verbesserung der Übereinstimmung mit den Benutzeranweisungen, insbesondere bei komplexen Anfragen. Unsere Projektseite ist unter https://www.haqtu.me/Recap-Datacomp-1B/ zu finden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Was wäre, wenn wir Milliarden von Web-Bildern mit LLaMA-3 neu beschriften würden? | Paper | HyperAI