HyperAIHyperAI

Command Palette

Search for a command to run...

Décodeur parallèle de perception du contexte pour la reconnaissance de texte scénique

Yongkun Du Zhineng Chen Caiyan Jia Xiaoting Yin Chenxia Li Yuning Du Yu-Gang Jiang

Résumé

Les méthodes de reconnaissance de texte dans les images (STR) ont longtemps peiné à atteindre à la fois une haute précision et une vitesse d’inférence rapide. Les modèles basés sur le décodage autoregressif (AR) effectuent la reconnaissance caractère par caractère, offrant une supériorité en précision mais une vitesse d’inférence lente. À l’inverse, les modèles basés sur le décodage parallèle (PD) infèrent tous les caractères en une seule passe de décodage, ce qui leur confère une vitesse d’inférence plus rapide, mais généralement une précision moindre. Nous présentons tout d’abord une étude empirique du décodage autoregressif en STR, et découvrons que le décodeur AR modélise non seulement le contexte linguistique, mais aussi fournit une guidance pour la perception du contexte visuel. En conséquence, nous proposons le Context Perception Parallel Decoder (CPPD), un modèle capable de prédire la séquence de caractères en une seule passe de décodage parallèle. Le CPPD intègre un module de comptage de caractères pour estimer le nombre d’occurrences de chaque caractère, ainsi qu’un module d’ordonnancement des caractères pour déduire un ordre de lecture indépendant du contenu ainsi que des emplacements réservés (placeholders). Le module de prédiction des caractères associe ensuite ces emplacements aux caractères correspondants. Ces composants ensemble construisent un contexte de reconnaissance complet et riche. Nous avons conçu une série de modèles CPPD, et avons également intégré les modules proposés dans des décodeurs STR existants. Les expériences menées sur des benchmarks en anglais et en chinois démontrent que les modèles CPPD atteignent une précision très compétitive tout en étant environ 8 fois plus rapides que leurs homologues basés sur le décodage autoregressif. En outre, les modèles améliorés par l’insertion de nos modules connaissent des gains significatifs en précision. Le code est disponible à l’adresse suivante : \href{https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_rec_cppd_en.md}{ce lien URL}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp