HyperAIHyperAI
il y a 11 jours

MixNet : Vers une Détection Précise de Textes en Scène Délicats dans l'Environnement Sauvage

Yu-Xiang Zeng, Jun-Wei Hsieh, Xin Li, Ming-Ching Chang
MixNet : Vers une Détection Précise de Textes en Scène Délicats dans l'Environnement Sauvage
Résumé

La détection d’instances de texte de petite taille dans des scènes naturelles est particulièrement difficile, en raison de l’influence des positions irrégulières et des conditions d’éclairage non idéales, qui entraînent fréquemment des erreurs de détection. Nous proposons MixNet, une architecture hybride combinant les forces des réseaux de neurones convolutifs (CNN) et des Transformers, capable de détecter avec précision des textes de petite taille dans des environnements naturels complexes, indépendamment des orientations, des styles et des conditions d’éclairage. MixNet intègre deux modules clés : (1) le Feature Shuffle Network (FSNet), utilisé comme squelette principal, et (2) le Central Transformer Block (CTBlock), conçu pour exploiter la contrainte de variété unidimensionnelle (1D) du texte en scène. Nous introduisons d’abord une nouvelle stratégie de permutation des caractéristiques dans le FSNet, permettant un échange efficace des informations entre plusieurs échelles, ce qui produit des caractéristiques à haute résolution supérieures à celles des architectures populaires telles que ResNet et HRNet. Le squelette FSNet améliore significativement de nombreuses méthodes existantes de détection de texte, notamment PAN, DB et FAST. Ensuite, nous concevons un CTBlock complémentaire, exploitant des caractéristiques basées sur l’axe central du texte, similaire à l’axe médian des régions textuelles, et démontrons qu’il surpasse les approches basées sur le contour dans des cas difficiles où les petits textes en scène sont proches les uns des autres. Les résultats expérimentaux étendus montrent que MixNet, combinant FSNet et CTBlock, atteint des performances de pointe sur plusieurs jeux de données de détection de texte en scène.

MixNet : Vers une Détection Précise de Textes en Scène Délicats dans l'Environnement Sauvage | Articles de recherche récents | HyperAI