HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Baseer : un modèle vision-langage pour la reconnaissance optique de caractères de documents arabes vers Markdown

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Baseer : un modèle vision-langage pour la reconnaissance optique de caractères de documents arabes vers Markdown

Résumé

La reconnaissance optique de caractères (OCR) dans les documents arabes reste un défi en raison de l’écriture cursive de la langue, de la diversité des polices, de la présence des diacritiques et de son orientation de droite à gauche. Bien que les modèles linguistiques à grande échelle multimodaux (MLLM) modernes aient considérablement amélioré la compréhension des documents pour les langues à fort soutien, leurs performances sur le texte arabe restent limitées. Dans ce travail, nous introduisons Baseer, un modèle vision-langage spécifiquement fine-tuné pour l’OCR de documents arabes. En exploitant un grand jeu de données combinant documents synthétiques et documents du monde réel, Baseer est entraîné via une stratégie de fine-tuning à base de décodeur unique, permettant d’adapter un MLLM pré-entraîné tout en préservant ses caractéristiques visuelles générales. Nous présentons également Misraj-DocOCR, un benchmark de haute qualité, vérifié par des experts, conçu pour une évaluation rigoureuse des systèmes d’OCR arabes. Nos expériences montrent que Baseer surpasse significativement les solutions open source et commerciales existantes, atteignant un taux d’erreur de mot (WER) de 0,25 et établissant ainsi un nouveau record dans le domaine de l’OCR de documents arabes. Nos résultats mettent en évidence les avantages de l’adaptation spécifique au domaine des MLLM polyvalents, et établissent une base solide pour l’OCR à haute précision dans les langues morphologiquement riches comme l’arabe.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Baseer : un modèle vision-langage pour la reconnaissance optique de caractères de documents arabes vers Markdown | Articles de recherche | HyperAI