HyperAIHyperAI

Command Palette

Search for a command to run...

SVTR : Reconnaissance de texte scènes avec un seul modèle visuel

Yongkun Du Zhineng Chen Caiyan Jia Xiaoting Yin Tianlun Zheng Chenxia Li Yuning Du Yu-Gang Jiang

Résumé

Les modèles dominants de reconnaissance de texte dans les scènes comprennent généralement deux composants fondamentaux : un modèle visuel pour l'extraction de caractéristiques et un modèle séquentiel pour la transcription du texte. Bien que cette architecture hybride soit précise, elle s'avère complexe et peu efficace. Dans cette étude, nous proposons un modèle unique visuel pour la reconnaissance de texte dans les scènes, dans le cadre d'une tokenisation d'image par patchs, qui élimine entièrement la modélisation séquentielle. Cette méthode, appelée SVTR (Single Visual model for Scene Text Recognition), commence par décomposer un texte d'image en petits patchs appelés composants caractères. Ensuite, des étapes hiérarchiques sont itérativement appliquées via un mélange, un regroupement et/ou une combinaison au niveau des composants. Des blocs de mélange global et local sont conçus pour capter respectivement les motifs inter-caractères et intra-caractères, permettant ainsi une perception multi-échelle des composants caractères. Par conséquent, la reconnaissance des caractères est réalisée par une simple prédiction linéaire. Les résultats expérimentaux sur les tâches de reconnaissance de texte en anglais et en chinois démontrent l'efficacité de SVTR. SVTR-L (Large) atteint une précision très compétitive en anglais et surpasse largement les méthodes existantes en chinois, tout en étant plus rapide. En outre, SVTR-T (Tiny) est un modèle plus petit et très efficace, offrant des performances remarquables en vitesse d'inférence. Le code source est disponible publiquement à l'adresse suivante : https://github.com/PaddlePaddle/PaddleOCR.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SVTR : Reconnaissance de texte scènes avec un seul modèle visuel | Articles | HyperAI