HyperAIHyperAI
vor 2 Monaten

OBELICS: Ein offener, webbasiert gefilterter Datensatz von überlappenden Bild-Text-Dokumenten

Laurençon, Hugo ; Saulnier, Lucile ; Tronchon, Léo ; Bekman, Stas ; Singh, Amanpreet ; Lozhkov, Anton ; Wang, Thomas ; Karamcheti, Siddharth ; Rush, Alexander M. ; Kiela, Douwe ; Cord, Matthieu ; Sanh, Victor
OBELICS: Ein offener, webbasiert gefilterter Datensatz von überlappenden Bild-Text-Dokumenten
Abstract

Große multimodale Modelle, die auf natürlichen Dokumenten trainiert wurden, in denen Bilder und Text abwechseln, übertreffen Modelle, die auf Bild-Text-Paaren trainiert wurden, bei verschiedenen multimodalen Benchmarks. Allerdings sind die Datensätze, die zur Ausbildung dieser Modelle verwendet wurden, nicht veröffentlicht worden, und der Sammelprozess wurde nicht vollständig spezifiziert. Wir stellen den OBELICS-Datensatz vor, einen offenen, webmasstabigen gefilterten Datensatz von abwechselnden Bild-Text-Dokumenten, der 141 Millionen Webseiten aus Common Crawl (Common Crawl), 353 Millionen assoziierte Bilder und 115 Milliarden Texttokens umfasst. Wir beschreiben den Prozess der Datensatz-Erstellung, präsentieren umfassende Filterregeln und liefern eine Analyse des Inhalts des Datensatzes. Um die Machbarkeit von OBELICS zu demonstrieren, trainieren wir visuelle und sprachliche Modelle mit 9 Milliarden und 80 Milliarden Parametern, die IDEFICS genannt werden, und erzielen wettbewerbsfähige Leistungen bei verschiedenen multimodalen Benchmarks. Wir veröffentlichen unseren Datensatz sowie unsere Modelle und Code.

OBELICS: Ein offener, webbasiert gefilterter Datensatz von überlappenden Bild-Text-Dokumenten | Neueste Forschungsarbeiten | HyperAI