HyperAIHyperAI

Command Palette

Search for a command to run...

CDistNet : Perception de la distance entre caractères multi-domaines pour une reconnaissance de texte robuste

Tianlun Zheng Zhineng Chen Shancheng Fang Hongtao Xie Yu-Gang Jiang

Résumé

Le cadre encodage-décodage basé sur le Transformer gagne en popularité dans la reconnaissance de texte en scène, en grande partie parce qu’il intègre naturellement les indices de reconnaissance issus à la fois des domaines visuels et sémantiques. Toutefois, des études récentes montrent que ces deux types d’indices ne sont pas toujours correctement alignés, entraînant une désalignement potentiel entre les caractères et leurs représentations fonctionnelles dans des cas complexes (par exemple, des textes présentant des formes rares). Ainsi, des contraintes telles que la position des caractères sont introduites pour atténuer ce problème. Malgré certains succès, les aspects visuels et sémantiques restent modélisés de manière séparée et ne sont qu’loinement associés. Dans ce travail, nous proposons un nouveau module appelé Perception de Distance Multidomaine entre Caractères (MDCDP), conçu pour établir une embeddage de position interconnecté visuellement et sémantiquement. Le MDCDP utilise cet embeddage de position pour interroger à la fois les caractéristiques visuelles et sémantiques selon le mécanisme d’attention croisée. Ces deux types d’indices sont fusionnés dans la branche de position, générant ainsi un embeddage sensible au contenu, capable de percevoir précisément les variations d’espacement et d’orientation des caractères, les affinités sémantiques entre caractères, ainsi que les indices reliant les deux types d’informations. Ces éléments sont synthétisés sous la forme de la distance multidomaine entre caractères. Nous avons développé CDistNet, un modèle qui empile plusieurs modules MDCDP afin de guider une modélisation progressive et précise de ces distances. Ce mécanisme permet donc d’établir un alignement robuste entre caractères et fonctionnalités, même en présence de difficultés variées de reconnaissance. Nous avons validé CDistNet sur dix jeux de données publics exigeants ainsi que sur deux séries de jeux de données augmentés créés spécifiquement par nos soins. Les expérimentations montrent que CDistNet se distingue fortement : non seulement il occupe une position de premier plan sur les benchmarks standards, mais il dépasse également de manière significative les méthodes récentes et populaires sur des jeux de données réels et augmentés présentant des déformations sévères du texte, un soutien linguistique faible et des dispositions de caractères rares. Le code source est disponible à l’adresse suivante : https://github.com/simplify23/CDistNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp