il y a 5 mois

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Résumé

La reconnaissance optique de caractères (OCR) dans les documents arabes reste un défi en raison de l’écriture cursive de la langue, de la diversité des polices, de la présence des diacritiques et de son orientation de droite à gauche. Bien que les modèles linguistiques à grande échelle multimodaux (MLLM) modernes aient considérablement amélioré la compréhension des documents pour les langues à fort soutien, leurs performances sur le texte arabe restent limitées. Dans ce travail, nous introduisons Baseer, un modèle vision-langage spécifiquement fine-tuné pour l’OCR de documents arabes. En exploitant un grand jeu de données combinant documents synthétiques et documents du monde réel, Baseer est entraîné via une stratégie de fine-tuning à base de décodeur unique, permettant d’adapter un MLLM pré-entraîné tout en préservant ses caractéristiques visuelles générales. Nous présentons également Misraj-DocOCR, un benchmark de haute qualité, vérifié par des experts, conçu pour une évaluation rigoureuse des systèmes d’OCR arabes. Nos expériences montrent que Baseer surpasse significativement les solutions open source et commerciales existantes, atteignant un taux d’erreur de mot (WER) de 0,25 et établissant ainsi un nouveau record dans le domaine de l’OCR de documents arabes. Nos résultats mettent en évidence les avantages de l’adaptation spécifique au domaine des MLLM polyvalents, et établissent une base solide pour l’OCR à haute précision dans les langues morphologiquement riches comme l’arabe.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

OCR

LLM

Compréhension De Document

Approche/Framework

Traitement Du Langage Naturel

Vision Par Ordinateur

Tâche

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

OCR

LLM

Compréhension De Document

Approche/Framework

Traitement Du Langage Naturel

Vision Par Ordinateur

Tâche

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Baseer : un modèle vision-langage pour la reconnaissance optique de caractères de documents arabes vers Markdown

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Baseer : un modèle vision-langage pour la reconnaissance optique de caractères de documents arabes vers Markdown

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Baseer : un modèle vision-langage pour la reconnaissance optique de caractères de documents arabes vers Markdown

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters