HyperAIHyperAI

Command Palette

Search for a command to run...

Baseer : un modèle vision-langage pour la reconnaissance optique de caractères de documents arabes vers Markdown

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Résumé

La reconnaissance optique de caractères (OCR) dans les documents arabes reste un défi en raison de l’écriture cursive de la langue, de la diversité des polices, de la présence des diacritiques et de son orientation de droite à gauche. Bien que les modèles linguistiques à grande échelle multimodaux (MLLM) modernes aient considérablement amélioré la compréhension des documents pour les langues à fort soutien, leurs performances sur le texte arabe restent limitées. Dans ce travail, nous introduisons Baseer, un modèle vision-langage spécifiquement fine-tuné pour l’OCR de documents arabes. En exploitant un grand jeu de données combinant documents synthétiques et documents du monde réel, Baseer est entraîné via une stratégie de fine-tuning à base de décodeur unique, permettant d’adapter un MLLM pré-entraîné tout en préservant ses caractéristiques visuelles générales. Nous présentons également Misraj-DocOCR, un benchmark de haute qualité, vérifié par des experts, conçu pour une évaluation rigoureuse des systèmes d’OCR arabes. Nos expériences montrent que Baseer surpasse significativement les solutions open source et commerciales existantes, atteignant un taux d’erreur de mot (WER) de 0,25 et établissant ainsi un nouveau record dans le domaine de l’OCR de documents arabes. Nos résultats mettent en évidence les avantages de l’adaptation spécifique au domaine des MLLM polyvalents, et établissent une base solide pour l’OCR à haute précision dans les langues morphologiquement riches comme l’arabe.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Baseer : un modèle vision-langage pour la reconnaissance optique de caractères de documents arabes vers Markdown | Articles | HyperAI