HyperAIHyperAI
il y a 2 mois

BN-HTRd : Un jeu de données de référence pour la reconnaissance hors ligne du texte manuscrit en bengali (HTR) et la segmentation des lignes au niveau du document

Rahman, Md. Ataur ; Tabassum, Nazifa ; Paul, Mitu ; Pal, Riya ; Islam, Mohammad Khairul
BN-HTRd : Un jeu de données de référence pour la reconnaissance hors ligne du texte manuscrit en bengali (HTR) et la segmentation des lignes au niveau du document
Résumé

Nous présentons un nouveau jeu de données pour la reconnaissance hors ligne du texte manuscrit (HTR) à partir d'images de caractères bangla comprenant des mots, des lignes et des annotations au niveau du document. Le jeu de données BN-HTRd est basé sur le corpus BBC Bangla News, destiné à servir de texte de référence. Ces textes ont ensuite été utilisés pour générer les annotations qui ont été remplies par des personnes avec leur écriture manuscrite. Notre jeu de données comprend 788 images de pages manuscrites produites par environ 150 écrivains différents. Il peut être adopté comme base pour diverses tâches de classification d'écriture manuscrite, telles que la reconnaissance intégrale des documents, la détection de mots, la segmentation de mots ou de lignes, etc. Nous proposons également une méthode pour segmenter les images de documents manuscrits bangla en lignes correspondantes d'une manière non supervisée. Notre approche de segmentation linéaire prend en compte la variabilité liée aux différents styles d'écriture, segmentant précisément des lignes complexes et courbe-linéaires (curvilinear nature). En association avec une série d'opérations préalables et morphologiques, nous avons utilisé à la fois les transformations en droite et en cercle de Hough pour distinguer les différents composants linéaires. Pour organiser ces composants dans leurs lignes correspondantes, nous avons suivi une approche de clustering non supervisé. Le taux moyen de succès de notre technique de segmentation est de 81,57 % en termes de métriques FM (similaires à l'F-mesure) avec une précision moyenne (mAP) de 0,547.

BN-HTRd : Un jeu de données de référence pour la reconnaissance hors ligne du texte manuscrit en bengali (HTR) et la segmentation des lignes au niveau du document | Articles de recherche récents | HyperAI