Wasm: Eine Pipeline zur Erstellung strukturierter arabischer gemischter multimodaler Korpora
Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

Abstract
Die Leistungsfähigkeit großer Sprachmodelle (Large Language Models, LLMs) und großer multimodaler Modelle (Large Multimodal Models, LMMs) hängt entscheidend von der Qualität und dem Umfang ihrer Vortrainingsdatensätze ab. Neuere Forschungsergebnisse zeigen, dass multimodale Modelle, die auf natürlichen Dokumenten trainiert werden, bei denen Bilder und Text miteinander abwechseln, in einer Vielzahl von Benchmarks gegenüber Modellen, die ausschließlich auf Bild-Text-Paaren trainiert wurden, bessere Ergebnisse erzielen. Dieser Vorteil resultiert aus der Nutzung fortgeschrittener vortrainierter Modelle, die eine semantische Ausrichtung, eine konsistente Bild-Sequenz-Struktur sowie textuelle Kohärenz gewährleisten. Für die arabischsprachige Domäne bleibt die Entwicklung jedoch eingeschränkt, da bisher keine hochwertigen multimodalen Datensätze verfügbar sind, die die Struktur von Dokumenten beibehalten. In diesem Paper stellen wir unsere Pipeline Wasm vor, die es ermöglicht, den Common Crawl-Datensatz zu verarbeiten und einen neuen arabischsprachigen multimodalen Datensatz zu generieren, der einzigartigerweise Ausgabe im Markdown-Format bereitstellt. Im Gegensatz zu bestehenden arabischen Korpora, die sich ausschließlich auf die Textextraktion konzentrieren, bewahrt unsere Methode die strukturelle Integrität der Webinhalte und bietet gleichzeitig Flexibilität für sowohl reine Text- als auch multimodale Vortrainingsanwendungen. Wir führen eine umfassende vergleichende Analyse unserer Datenaufbereitungs-Pipeline durch, die mit jenen für etablierte Datensätze verglichen wird, und heben dabei die Übereinstimmungen in den Filterstrategien hervor, wodurch die spezifischen Gestaltungsentscheidungen unserer Pipeline begründet werden. Um zukünftige Forschung zu unterstützen, stellen wir eine repräsentative Datendump-Datei sowie die vollständige multimodale Verarbeitungspipeline für arabischsprachige Inhalte öffentlich zur Verfügung.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.