HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 14 jours

Wasm : Un pipeline pour la construction de corpus multimodaux arabe structurés et entrelacés

Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

Wasm : Un pipeline pour la construction de corpus multimodaux arabe structurés et entrelacés

Résumé

La performance des grands modèles linguistiques (LLM) et des grands modèles multimodaux (LMM) dépend fortement de la qualité et de l’échelle de leurs jeux de données d’entraînement préalable. Des recherches récentes montrent que les grands modèles multimodaux entraînés sur des documents naturels où images et texte sont imbriqués surpassent, sur une large gamme de benchmarks, ceux entraînés uniquement sur des paires image-texte, en exploitant des modèles pré-entraînés avancés pour assurer une alignement sémantique, une cohérence séquentielle des images et une cohérence textuelle. Pour l’arabe, toutefois, le manque de jeux de données multimodaux de haute qualité respectant la structure des documents a freiné les progrès. Dans cet article, nous présentons notre pipeline, Wasm, pour le traitement du jeu de données Common Crawl afin de créer un nouveau jeu de données multimodal arabe, unique en ce qu’il fournit une sortie au format markdown. Contrairement aux corpus arabe existants, qui se concentrent exclusivement sur l’extraction de texte, notre approche préserve l’intégrité structurelle du contenu web tout en offrant une flexibilité pour des scénarios d’entraînement préalable à la fois textuel et multimodal. Nous fournissons une analyse comparative approfondie de notre pipeline de traitement par rapport à ceux utilisés pour les principaux jeux de données existants, en mettant en évidence les convergences dans les stratégies de filtrage et en justifiant nos choix de conception spécifiques. Afin de soutenir les recherches futures, nous mettons publiquement à disposition un extrait représentatif du jeu de données, ainsi que le pipeline de traitement multimodal pour l’arabe.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Wasm : Un pipeline pour la construction de corpus multimodaux arabe structurés et entrelacés | Articles de recherche | HyperAI