Command Palette
Search for a command to run...
Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

摘要
大型语言模型(LLMs)和大型多模态模型(LMMs)的性能在很大程度上依赖于其预训练数据集的质量与规模。近期研究表明,基于自然文档进行训练的大型多模态模型——其中图像与文本以交错方式共现——在多种基准测试中均优于仅使用图像-文本对训练的模型。这类模型通过利用先进的预训练技术,实现了语义对齐、图像序列一致性以及文本连贯性。然而,对于阿拉伯语而言,由于缺乏能够保持文档结构的高质量多模态数据集,相关研究进展受到限制。本文提出了一种名为 Wasm 的数据处理流水线,用于处理 Common Crawl 数据集,构建了一个全新的阿拉伯语多模态数据集,其独特之处在于能够输出 Markdown 格式的内容。与现有仅专注于文本提取的阿拉伯语语料库不同,我们的方法在保留网页内容结构完整性的基础上,同时兼顾纯文本与多模态预训练场景的灵活性。我们对本研究的数据处理流程与现有主流数据集所采用的方法进行了全面的对比分析,揭示了各类方法在过滤策略上的共性,并合理论证了我们特定设计选择的依据。为支持未来研究,我们已公开发布代表性数据子集及完整的阿拉伯语多模态处理流水线。