Command Palette
Search for a command to run...
Baseer : un modèle vision-langage pour la reconnaissance optique de caractères de documents arabes vers Markdown
Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Résumé
La reconnaissance optique de caractères (OCR) dans les documents arabes reste un défi en raison de l’écriture cursive de la langue, de la diversité des polices, de la présence des diacritiques et de son orientation de droite à gauche. Bien que les modèles linguistiques à grande échelle multimodaux (MLLM) modernes aient considérablement amélioré la compréhension des documents pour les langues à fort soutien, leurs performances sur le texte arabe restent limitées. Dans ce travail, nous introduisons Baseer, un modèle vision-langage spécifiquement fine-tuné pour l’OCR de documents arabes. En exploitant un grand jeu de données combinant documents synthétiques et documents du monde réel, Baseer est entraîné via une stratégie de fine-tuning à base de décodeur unique, permettant d’adapter un MLLM pré-entraîné tout en préservant ses caractéristiques visuelles générales. Nous présentons également Misraj-DocOCR, un benchmark de haute qualité, vérifié par des experts, conçu pour une évaluation rigoureuse des systèmes d’OCR arabes. Nos expériences montrent que Baseer surpasse significativement les solutions open source et commerciales existantes, atteignant un taux d’erreur de mot (WER) de 0,25 et établissant ainsi un nouveau record dans le domaine de l’OCR de documents arabes. Nos résultats mettent en évidence les avantages de l’adaptation spécifique au domaine des MLLM polyvalents, et établissent une base solide pour l’OCR à haute précision dans les langues morphologiquement riches comme l’arabe.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.