vor 5 Monaten

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Zusammenfassung

Die OCR von arabischen Dokumenten bleibt aufgrund der kursive Schrift, der Vielzahl an Schriftarten, der Diakritika und der rechts-nach-links-Orientierung eine herausfordernde Aufgabe. Während moderne Multimodale Große Sprachmodelle (MLLMs) die Dokumentenverarbeitung für sprachlich gut erschlossene Sprachen erheblich vorangebracht haben, bleibt ihre Leistungsfähigkeit für Arabisch weiterhin begrenzt. In dieser Arbeit stellen wir Baseer vor, ein vision-sprachliches Modell, das speziell für die OCR arabischer Dokumente feinabgestimmt wurde. Basierend auf einem großskaligen Datensatz, der synthetische und reale Dokumente kombiniert, wird Baseer mittels einer decoder-only-Finetuning-Strategie trainiert, um ein vortrainiertes MLLM anzupassen, während gleichzeitig allgemeine visuelle Merkmale erhalten bleiben. Außerdem präsentieren wir Misraj-DocOCR, eine hochwertige, von Experten validierte Benchmark, die zur rigorosen Evaluierung von Arabisch-OCR-Systemen dient. Unsere Experimente zeigen, dass Baseer bestehende Open-Source- und kommerzielle Lösungen deutlich übertrifft und mit einem Wortfehlerquote (WER) von 0,25 einen neuen State-of-the-Art in der arabischen Dokumenten-OCR etabliert. Unsere Ergebnisse unterstreichen die Vorteile einer domänenspezifischen Anpassung allgemeiner MLLMs und legen eine starke Grundlage für eine hochgenaue OCR morphologisch reicher Sprachen wie Arabisch fest.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Natürliche Sprachverarbeitung

Computervision

Aufgabe

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Natürliche Sprachverarbeitung

Computervision

Aufgabe

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Baseer: Ein visuell-sprachliches Modell für die arabische Dokument-zu-Markdown-OCR

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Baseer: Ein visuell-sprachliches Modell für die arabische Dokument-zu-Markdown-OCR

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Baseer: Ein visuell-sprachliches Modell für die arabische Dokument-zu-Markdown-OCR

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters