Command Palette
Search for a command to run...
Baseer: Ein visuell-sprachliches Modell für die arabische Dokument-zu-Markdown-OCR
Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Abstract
Die OCR von arabischen Dokumenten bleibt aufgrund der kursive Schrift, der Vielzahl an Schriftarten, der Diakritika und der rechts-nach-links-Orientierung eine herausfordernde Aufgabe. Während moderne Multimodale Große Sprachmodelle (MLLMs) die Dokumentenverarbeitung für sprachlich gut erschlossene Sprachen erheblich vorangebracht haben, bleibt ihre Leistungsfähigkeit für Arabisch weiterhin begrenzt. In dieser Arbeit stellen wir Baseer vor, ein vision-sprachliches Modell, das speziell für die OCR arabischer Dokumente feinabgestimmt wurde. Basierend auf einem großskaligen Datensatz, der synthetische und reale Dokumente kombiniert, wird Baseer mittels einer decoder-only-Finetuning-Strategie trainiert, um ein vortrainiertes MLLM anzupassen, während gleichzeitig allgemeine visuelle Merkmale erhalten bleiben. Außerdem präsentieren wir Misraj-DocOCR, eine hochwertige, von Experten validierte Benchmark, die zur rigorosen Evaluierung von Arabisch-OCR-Systemen dient. Unsere Experimente zeigen, dass Baseer bestehende Open-Source- und kommerzielle Lösungen deutlich übertrifft und mit einem Wortfehlerquote (WER) von 0,25 einen neuen State-of-the-Art in der arabischen Dokumenten-OCR etabliert. Unsere Ergebnisse unterstreichen die Vorteile einer domänenspezifischen Anpassung allgemeiner MLLMs und legen eine starke Grundlage für eine hochgenaue OCR morphologisch reicher Sprachen wie Arabisch fest.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.