Pipeline permettant la classification zéro-shot pour les graphèmes manuscrits en bangla

Cette recherche s’intéresse à l’apprentissage zéro-shot (Zero-Shot Learning, ZSL) et propose une synthèse d’images basée sur CycleGAN ainsi qu’une cartographie précise des étiquettes afin d’établir une association robuste entre les étiquettes et les graphèmes. L’objectif consiste à améliorer la précision du modèle dans la détection de classes inconnues en exploitant une catégorisation avancée des images de polices et un générateur basé sur CycleGAN. Les représentations ainsi obtenues des structures caractéristiques abstraites montrent une amélioration significative de la reconnaissance, permettant de traiter à la fois les classes observées et les classes inédites. Cette étude aborde le problème complexe de la reconnaissance optique de caractères (OCR) dans le contexte spécifique de la langue bangla. L’écriture bangla est réputée pour sa grande complexité, composée d’un total de 49 lettres, incluant 11 voyelles, 38 consonnes et 18 diacritiques. La combinaison de ces lettres dans une disposition complexe permet de générer près de 13 000 variantes uniques de graphèmes, dépassant ainsi le nombre d’unités graphémiques présentes dans la langue anglaise. Cette recherche présente une nouvelle stratégie pour l’apprentissage zéro-shot dans le cadre de l’OCR bangla. Cette approche combine des modèles génératifs à des techniques de marquage soignées afin d’améliorer l’avancement de l’OCR bangla, en se concentrant particulièrement sur la catégorisation des graphèmes. Notre objectif est d’apporter une contribution substantielle à la numérisation des ressources éducatives dans la sous-continent indien.