HyperAIHyperAI
il y a 11 jours

Réseaux de caractères convolutionnels

Linjie Xing, Zhi Tian, Weilin Huang, Matthew R. Scott
Réseaux de caractères convolutionnels
Résumé

Des progrès récents ont été réalisés dans le développement d’un cadre unifié pour la détection et la reconnaissance conjoints du texte dans les images naturelles, mais les modèles conjoints existants étaient principalement fondés sur une architecture à deux étapes impliquant un pooling ROI, ce qui peut nuire aux performances sur la tâche de reconnaissance. Dans ce travail, nous proposons les réseaux convolutionnels de caractères, appelés CharNet, un modèle à une seule étape capable de traiter simultanément les deux tâches en une seule passe. CharNet produit directement les boîtes englobantes des mots et des caractères, accompagnées de leurs étiquettes respectives. En prenant le caractère comme élément fondamental, nous parvenons à surmonter la principale difficulté des approches existantes, qui tentaient d’optimiser conjointement la détection du texte et une branche de reconnaissance basée sur un réseau récurrent (RNN). En outre, nous avons développé une approche itérative de détection de caractères, permettant de transférer efficacement la capacité d’identification des caractères apprise à partir de données synthétiques vers des images du monde réel. Ces améliorations techniques ont abouti à un modèle simple, compact mais puissant, capable de fonctionner de manière fiable sur des textes multiorientés et courbés. Nous évaluons CharNet sur trois benchmarks standards, où il dépasse de manière cohérente les approches de pointe [25, 24] avec une marge significative, par exemple avec une amélioration de 65,33 % à 71,08 % (avec un lexique générique) sur ICDAR 2015, et de 54,0 % à 69,23 % sur Total-Text, pour la reconnaissance de texte en boucle complète. Le code est disponible à l’adresse suivante : https://github.com/MalongTech/research-charnet.

Réseaux de caractères convolutionnels | Articles de recherche récents | HyperAI