HyperAIHyperAI

Command Palette

Search for a command to run...

vor 14 Tagen

Wasm: Eine Pipeline zur Erstellung strukturierter arabischer gemischter multimodaler Korpora

Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

Wasm: Eine Pipeline zur Erstellung strukturierter arabischer gemischter multimodaler Korpora

Abstract

Die Leistungsfähigkeit großer Sprachmodelle (Large Language Models, LLMs) und großer multimodaler Modelle (Large Multimodal Models, LMMs) hängt entscheidend von der Qualität und dem Umfang ihrer Vortrainingsdatensätze ab. Neuere Forschungsergebnisse zeigen, dass multimodale Modelle, die auf natürlichen Dokumenten trainiert werden, bei denen Bilder und Text miteinander abwechseln, in einer Vielzahl von Benchmarks gegenüber Modellen, die ausschließlich auf Bild-Text-Paaren trainiert wurden, bessere Ergebnisse erzielen. Dieser Vorteil resultiert aus der Nutzung fortgeschrittener vortrainierter Modelle, die eine semantische Ausrichtung, eine konsistente Bild-Sequenz-Struktur sowie textuelle Kohärenz gewährleisten. Für die arabischsprachige Domäne bleibt die Entwicklung jedoch eingeschränkt, da bisher keine hochwertigen multimodalen Datensätze verfügbar sind, die die Struktur von Dokumenten beibehalten. In diesem Paper stellen wir unsere Pipeline Wasm vor, die es ermöglicht, den Common Crawl-Datensatz zu verarbeiten und einen neuen arabischsprachigen multimodalen Datensatz zu generieren, der einzigartigerweise Ausgabe im Markdown-Format bereitstellt. Im Gegensatz zu bestehenden arabischen Korpora, die sich ausschließlich auf die Textextraktion konzentrieren, bewahrt unsere Methode die strukturelle Integrität der Webinhalte und bietet gleichzeitig Flexibilität für sowohl reine Text- als auch multimodale Vortrainingsanwendungen. Wir führen eine umfassende vergleichende Analyse unserer Datenaufbereitungs-Pipeline durch, die mit jenen für etablierte Datensätze verglichen wird, und heben dabei die Übereinstimmungen in den Filterstrategien hervor, wodurch die spezifischen Gestaltungsentscheidungen unserer Pipeline begründet werden. Um zukünftige Forschung zu unterstützen, stellen wir eine repräsentative Datendump-Datei sowie die vollständige multimodale Verarbeitungspipeline für arabischsprachige Inhalte öffentlich zur Verfügung.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wasm: Eine Pipeline zur Erstellung strukturierter arabischer gemischter multimodaler Korpora | Forschungsarbeiten | HyperAI