BN-DRISHTI : Reconnaissance de Documents Bangla par Segmentation au Niveau des Instances d'Images de Texte Manuscrit

La reconnaissance de l'écriture manuscrite reste un défi pour certaines des langues les plus parlées, comme le bengali, en raison de la complexité de la segmentation des lignes et des mots engendrée par la nature courbe de l'écriture et du manque de jeux de données de qualité. Cet article résout le problème de segmentation en introduisant une méthode d'avant-garde (BN-DRISHTI) qui combine un cadre de détection d'objets basé sur l'apprentissage profond (YOLO) avec les transformations de Hough et Affine pour la correction d'inclinaison. Cependant, l'entraînement des modèles d'apprentissage profond nécessite une quantité massive de données. Par conséquent, nous présentons également une version étendue du jeu de données BN-HTRd comprenant 786 images complètes de documents manuscrits en bengali, des annotations au niveau des lignes et des mots pour la segmentation, ainsi que les vérités terrain correspondantes pour la reconnaissance des mots. L'évaluation sur la partie test de notre jeu de données a abouti à un score F de 99,97 % pour la segmentation des lignes et de 98 % pour la segmentation des mots. Pour une analyse comparative, nous avons utilisé trois jeux de données externes d'écriture manuscrite en bengali, à savoir BanglaWriting, WBSUBNdb_text et ICDAR 2013, où notre système a largement surpassé les autres, justifiant davantage les performances de notre approche sur des échantillons totalement inédits.