HyperAIHyperAI
il y a 11 jours

SVTR : Reconnaissance de texte scènes avec un seul modèle visuel

Yongkun Du, Zhineng Chen, Caiyan Jia, Xiaoting Yin, Tianlun Zheng, Chenxia Li, Yuning Du, Yu-Gang Jiang
SVTR : Reconnaissance de texte scènes avec un seul modèle visuel
Résumé

Les modèles dominants de reconnaissance de texte dans les scènes comprennent généralement deux composants fondamentaux : un modèle visuel pour l'extraction de caractéristiques et un modèle séquentiel pour la transcription du texte. Bien que cette architecture hybride soit précise, elle s'avère complexe et peu efficace. Dans cette étude, nous proposons un modèle unique visuel pour la reconnaissance de texte dans les scènes, dans le cadre d'une tokenisation d'image par patchs, qui élimine entièrement la modélisation séquentielle. Cette méthode, appelée SVTR (Single Visual model for Scene Text Recognition), commence par décomposer un texte d'image en petits patchs appelés composants caractères. Ensuite, des étapes hiérarchiques sont itérativement appliquées via un mélange, un regroupement et/ou une combinaison au niveau des composants. Des blocs de mélange global et local sont conçus pour capter respectivement les motifs inter-caractères et intra-caractères, permettant ainsi une perception multi-échelle des composants caractères. Par conséquent, la reconnaissance des caractères est réalisée par une simple prédiction linéaire. Les résultats expérimentaux sur les tâches de reconnaissance de texte en anglais et en chinois démontrent l'efficacité de SVTR. SVTR-L (Large) atteint une précision très compétitive en anglais et surpasse largement les méthodes existantes en chinois, tout en étant plus rapide. En outre, SVTR-T (Tiny) est un modèle plus petit et très efficace, offrant des performances remarquables en vitesse d'inférence. Le code source est disponible publiquement à l'adresse suivante : https://github.com/PaddlePaddle/PaddleOCR.

SVTR : Reconnaissance de texte scènes avec un seul modèle visuel | Articles de recherche récents | HyperAI