HyperAIHyperAI
il y a 2 mois

OBELICS : Un jeu de données filtré à l'échelle du web de documents image-texte entrelacés

Laurençon, Hugo ; Saulnier, Lucile ; Tronchon, Léo ; Bekman, Stas ; Singh, Amanpreet ; Lozhkov, Anton ; Wang, Thomas ; Karamcheti, Siddharth ; Rush, Alexander M. ; Kiela, Douwe ; Cord, Matthieu ; Sanh, Victor
OBELICS : Un jeu de données filtré à l'échelle du web de documents image-texte entrelacés
Résumé

Les grands modèles multimodaux formés sur des documents naturels, qui alternent images et texte, surpassent les modèles formés sur des paires image-texte sur diverses évaluations multimodales. Cependant, les ensembles de données utilisés pour former ces modèles n'ont pas été rendus publics, et le processus de collecte n'a pas été entièrement spécifié. Nous présentons le jeu de données OBELICS, un ensemble de données filtré à l'échelle du web et ouvert, composé de 141 millions de pages web extraites de Common Crawl, 353 millions d'images associées et 115 milliards de jetons textuels. Nous décrivons le processus de création du jeu de données, présentons des règles de filtrage exhaustives et fournissons une analyse du contenu du jeu de données. Pour démontrer la viabilité d'OBELICS, nous avons formé des modèles visuels et linguistiques dotés respectivement de 9 et 80 milliards de paramètres nommés IDEFICS, et obtenu des performances compétitives sur différentes évaluations multimodales. Nous mettons à disposition notre jeu de données, nos modèles et notre code.

OBELICS : Un jeu de données filtré à l'échelle du web de documents image-texte entrelacés | Articles de recherche récents | HyperAI