HyperAIHyperAI
il y a 8 jours

ABINet++ : Modélisation du langage autonome, bidirectionnelle et itérative pour la reconnaissance de texte dans les scènes

Shancheng Fang, Zhendong Mao, Hongtao Xie, Yuxin Wang, Chenggang Yan, Yongdong Zhang
ABINet++ : Modélisation du langage autonome, bidirectionnelle et itérative pour la reconnaissance de texte dans les scènes
Résumé

La détection de texte dans les scènes est d'une importance capitale pour la communauté de vision par ordinateur en raison de ses nombreuses applications. Les méthodes récentes cherchent à intégrer des connaissances linguistiques pour améliorer la reconnaissance dans des cas difficiles, au-delà d'une simple classification visuelle. Toutefois, la modélisation efficace des règles linguistiques au sein de réseaux profonds end-to-end demeure un défi de recherche. Dans cet article, nous affirmons que la capacité limitée des modèles linguistiques provient de trois facteurs : 1) une modélisation linguistique implicite ; 2) une représentation de caractéristiques unidirectionnelle ; et 3) l’utilisation d’entrées bruitées dans le modèle linguistique. En réponse, nous proposons ABINet++, un modèle autonome, bidirectionnel et itératif pour la détection de texte dans les scènes. Premièrement, l’aspect autonome consiste à imposer une modélisation linguistique explicite en décomposant le module de reconnaissance en deux composants distincts — un modèle visuel et un modèle linguistique — tout en bloquant le flux de gradients entre les deux. Deuxièmement, nous introduisons un nouveau réseau cloze bidirectionnel (BCN) comme modèle linguistique, fondé sur une représentation bidirectionnelle des caractéristiques. Troisièmement, nous proposons une stratégie d’itération de correction pour le modèle linguistique, permettant de réduire efficacement l’impact des entrées bruitées. Enfin, afin d’améliorer la reconnaissance de textes longs, nous proposons d’agréger les caractéristiques horizontales en intégrant des unités Transformer dans une architecture U-Net, et concevons un module d’attention combinant position et contenu, qui permet d’attirer précisément l’attention sur les caractéristiques des caractères en tenant compte à la fois de leur ordre et de leur contenu. ABINet++ atteint des performances de pointe sur les benchmarks de reconnaissance et de détection de texte dans les scènes, démontrant de manière cohérente l’avantage de notre méthode dans divers environnements, notamment sur des images de faible qualité. En outre, des expériences étendues, menées aussi bien en anglais qu’en chinois, montrent qu’un détecteur de texte intégrant notre méthode de modélisation linguistique améliore significativement à la fois la précision et la vitesse par rapport aux reconnaisseurs basés sur l’attention couramment utilisés.

ABINet++ : Modélisation du langage autonome, bidirectionnelle et itérative pour la reconnaissance de texte dans les scènes | Articles de recherche récents | HyperAI