vor 3 Monaten

Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

Zusammenfassung

Die Leistungsfähigkeit großer Sprachmodelle (Large Language Models, LLMs) und großer multimodaler Modelle (Large Multimodal Models, LMMs) hängt entscheidend von der Qualität und dem Umfang ihrer Vortrainingsdatensätze ab. Neuere Forschungsergebnisse zeigen, dass multimodale Modelle, die auf natürlichen Dokumenten trainiert werden, bei denen Bilder und Text miteinander abwechseln, in einer Vielzahl von Benchmarks gegenüber Modellen, die ausschließlich auf Bild-Text-Paaren trainiert wurden, bessere Ergebnisse erzielen. Dieser Vorteil resultiert aus der Nutzung fortgeschrittener vortrainierter Modelle, die eine semantische Ausrichtung, eine konsistente Bild-Sequenz-Struktur sowie textuelle Kohärenz gewährleisten. Für die arabischsprachige Domäne bleibt die Entwicklung jedoch eingeschränkt, da bisher keine hochwertigen multimodalen Datensätze verfügbar sind, die die Struktur von Dokumenten beibehalten. In diesem Paper stellen wir unsere Pipeline Wasm vor, die es ermöglicht, den Common Crawl-Datensatz zu verarbeiten und einen neuen arabischsprachigen multimodalen Datensatz zu generieren, der einzigartigerweise Ausgabe im Markdown-Format bereitstellt. Im Gegensatz zu bestehenden arabischen Korpora, die sich ausschließlich auf die Textextraktion konzentrieren, bewahrt unsere Methode die strukturelle Integrität der Webinhalte und bietet gleichzeitig Flexibilität für sowohl reine Text- als auch multimodale Vortrainingsanwendungen. Wir führen eine umfassende vergleichende Analyse unserer Datenaufbereitungs-Pipeline durch, die mit jenen für etablierte Datensätze verglichen wird, und heben dabei die Übereinstimmungen in den Filterstrategien hervor, wodurch die spezifischen Gestaltungsentscheidungen unserer Pipeline begründet werden. Um zukünftige Forschung zu unterstützen, stellen wir eine repräsentative Datendump-Datei sowie die vollständige multimodale Verarbeitungspipeline für arabischsprachige Inhalte öffentlich zur Verfügung.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Wasm: Eine Pipeline zur Erstellung strukturierter arabischer gemischter multimodaler Korpora | Paper | HyperAI

Command Palette

Wasm: Eine Pipeline zur Erstellung strukturierter arabischer gemischter multimodaler Korpora

Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Wasm: Eine Pipeline zur Erstellung strukturierter arabischer gemischter multimodaler Korpora

Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Wasm: Eine Pipeline zur Erstellung strukturierter arabischer gemischter multimodaler Korpora

Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters