Ensemble De Données Arabes Manuscrites De Muharaf
Date
Taille
URL de publication
Licence
CC BY-NC-SA 3.0
Tags
* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.
L'ensemble de données Muharaf est un ensemble de données d'apprentissage automatique axé sur la reconnaissance de l'arabe manuscrit, créé par Mehreen Saeed et al. en 2024. Les résultats de l'article correspondant sont «Muharaf : ensemble de données de manuscrits arabes pour la reconnaissance de textes cursifs", a été accepté par NeurIPS 24. Cet ensemble de données contient plus de 1,6 000 images de pages manuscrites historiques transcrites par des experts en archives arabes. Chaque image de document est accompagnée des coordonnées polygonales spatiales de ses lignes de texte et d'informations sur les éléments de base de la page. L'ensemble de données Muharaf a été construit pour faire progresser l'état de l'art dans le domaine de la reconnaissance de texte manuscrit (HTR), non seulement pour les manuscrits arabes mais aussi pour les textes connexes.
L'ensemble de données contient une gamme diversifiée de styles d'écriture et une large gamme de types de documents, notamment des lettres personnelles, des journaux intimes, des notes, de la poésie, des registres paroissiaux et de la correspondance juridique. Dans l'article de recherche, les auteurs décrivent le processus d'acquisition de données, les principales caractéristiques et statistiques de l'ensemble de données, et fournissent des résultats de base préliminaires obtenus en entraînant des réseaux neuronaux convolutifs à l'aide de ces données.
L'ensemble de données Muharaf est divisé en deux parties : la partie publique contient 1 216 images et est distribuée sous la licence CC BY-NC-SA 4.0 ; la partie restreinte contient 428 images et est distribuée sous une licence propriétaire et ne peut être téléchargée qu'en contactant Carlos Younes au Phoenix Center for Lebanese Studies. Cette partie des données ne peut être utilisée qu'à des fins de recherche et la redistribution n'est pas autorisée. De plus, l'ensemble de données Muharaf a été créé à l'aide du logiciel d'annotation ScribeArabic, et le manuel de ce logiciel peut aider les utilisateurs à comprendre son fonctionnement. Les fichiers image de l'ensemble de données, ainsi que les annotations, transcriptions et balises correspondantes, peuvent être visualisés à l'aide de la visionneuse PAGE-XML.
