HyperAIHyperAI
il y a 15 jours

CDistNet : Perception de la distance entre caractères multi-domaines pour une reconnaissance de texte robuste

Tianlun Zheng, Zhineng Chen, Shancheng Fang, Hongtao Xie, Yu-Gang Jiang
CDistNet : Perception de la distance entre caractères multi-domaines pour une reconnaissance de texte robuste
Résumé

Le cadre encodage-décodage basé sur le Transformer gagne en popularité dans la reconnaissance de texte en scène, en grande partie parce qu’il intègre naturellement les indices de reconnaissance issus à la fois des domaines visuels et sémantiques. Toutefois, des études récentes montrent que ces deux types d’indices ne sont pas toujours correctement alignés, entraînant une désalignement potentiel entre les caractères et leurs représentations fonctionnelles dans des cas complexes (par exemple, des textes présentant des formes rares). Ainsi, des contraintes telles que la position des caractères sont introduites pour atténuer ce problème. Malgré certains succès, les aspects visuels et sémantiques restent modélisés de manière séparée et ne sont qu’loinement associés. Dans ce travail, nous proposons un nouveau module appelé Perception de Distance Multidomaine entre Caractères (MDCDP), conçu pour établir une embeddage de position interconnecté visuellement et sémantiquement. Le MDCDP utilise cet embeddage de position pour interroger à la fois les caractéristiques visuelles et sémantiques selon le mécanisme d’attention croisée. Ces deux types d’indices sont fusionnés dans la branche de position, générant ainsi un embeddage sensible au contenu, capable de percevoir précisément les variations d’espacement et d’orientation des caractères, les affinités sémantiques entre caractères, ainsi que les indices reliant les deux types d’informations. Ces éléments sont synthétisés sous la forme de la distance multidomaine entre caractères. Nous avons développé CDistNet, un modèle qui empile plusieurs modules MDCDP afin de guider une modélisation progressive et précise de ces distances. Ce mécanisme permet donc d’établir un alignement robuste entre caractères et fonctionnalités, même en présence de difficultés variées de reconnaissance. Nous avons validé CDistNet sur dix jeux de données publics exigeants ainsi que sur deux séries de jeux de données augmentés créés spécifiquement par nos soins. Les expérimentations montrent que CDistNet se distingue fortement : non seulement il occupe une position de premier plan sur les benchmarks standards, mais il dépasse également de manière significative les méthodes récentes et populaires sur des jeux de données réels et augmentés présentant des déformations sévères du texte, un soutien linguistique faible et des dispositions de caractères rares. Le code source est disponible à l’adresse suivante : https://github.com/simplify23/CDistNet.

CDistNet : Perception de la distance entre caractères multi-domaines pour une reconnaissance de texte robuste | Articles de recherche récents | HyperAI