HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Baseer: Ein visuell-sprachliches Modell für die arabische Dokument-zu-Markdown-OCR

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Baseer: Ein visuell-sprachliches Modell für die arabische Dokument-zu-Markdown-OCR

Abstract

Die OCR von arabischen Dokumenten bleibt aufgrund der kursive Schrift, der Vielzahl an Schriftarten, der Diakritika und der rechts-nach-links-Orientierung eine herausfordernde Aufgabe. Während moderne Multimodale Große Sprachmodelle (MLLMs) die Dokumentenverarbeitung für sprachlich gut erschlossene Sprachen erheblich vorangebracht haben, bleibt ihre Leistungsfähigkeit für Arabisch weiterhin begrenzt. In dieser Arbeit stellen wir Baseer vor, ein vision-sprachliches Modell, das speziell für die OCR arabischer Dokumente feinabgestimmt wurde. Basierend auf einem großskaligen Datensatz, der synthetische und reale Dokumente kombiniert, wird Baseer mittels einer decoder-only-Finetuning-Strategie trainiert, um ein vortrainiertes MLLM anzupassen, während gleichzeitig allgemeine visuelle Merkmale erhalten bleiben. Außerdem präsentieren wir Misraj-DocOCR, eine hochwertige, von Experten validierte Benchmark, die zur rigorosen Evaluierung von Arabisch-OCR-Systemen dient. Unsere Experimente zeigen, dass Baseer bestehende Open-Source- und kommerzielle Lösungen deutlich übertrifft und mit einem Wortfehlerquote (WER) von 0,25 einen neuen State-of-the-Art in der arabischen Dokumenten-OCR etabliert. Unsere Ergebnisse unterstreichen die Vorteile einer domänenspezifischen Anpassung allgemeiner MLLMs und legen eine starke Grundlage für eine hochgenaue OCR morphologisch reicher Sprachen wie Arabisch fest.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Baseer: Ein visuell-sprachliches Modell für die arabische Dokument-zu-Markdown-OCR | Forschungsarbeiten | HyperAI