Command Palette
Search for a command to run...
Wasm : Un pipeline pour la construction de corpus multimodaux arabe structurés et entrelacés
Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

Résumé
La performance des grands modèles linguistiques (LLM) et des grands modèles multimodaux (LMM) dépend fortement de la qualité et de l’échelle de leurs jeux de données d’entraînement préalable. Des recherches récentes montrent que les grands modèles multimodaux entraînés sur des documents naturels où images et texte sont imbriqués surpassent, sur une large gamme de benchmarks, ceux entraînés uniquement sur des paires image-texte, en exploitant des modèles pré-entraînés avancés pour assurer une alignement sémantique, une cohérence séquentielle des images et une cohérence textuelle. Pour l’arabe, toutefois, le manque de jeux de données multimodaux de haute qualité respectant la structure des documents a freiné les progrès. Dans cet article, nous présentons notre pipeline, Wasm, pour le traitement du jeu de données Common Crawl afin de créer un nouveau jeu de données multimodal arabe, unique en ce qu’il fournit une sortie au format markdown. Contrairement aux corpus arabe existants, qui se concentrent exclusivement sur l’extraction de texte, notre approche préserve l’intégrité structurelle du contenu web tout en offrant une flexibilité pour des scénarios d’entraînement préalable à la fois textuel et multimodal. Nous fournissons une analyse comparative approfondie de notre pipeline de traitement par rapport à ceux utilisés pour les principaux jeux de données existants, en mettant en évidence les convergences dans les stratégies de filtrage et en justifiant nos choix de conception spécifiques. Afin de soutenir les recherches futures, nous mettons publiquement à disposition un extrait représentatif du jeu de données, ainsi que le pipeline de traitement multimodal pour l’arabe.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.