Command Palette
Search for a command to run...
Décodeur parallèle de perception du contexte pour la reconnaissance de texte scénique
Décodeur parallèle de perception du contexte pour la reconnaissance de texte scénique
Yongkun Du Zhineng Chen Caiyan Jia Xiaoting Yin Chenxia Li Yuning Du Yu-Gang Jiang
Résumé
Les méthodes de reconnaissance de texte dans les images (STR) ont longtemps peiné à atteindre à la fois une haute précision et une vitesse d’inférence rapide. Les modèles basés sur le décodage autoregressif (AR) effectuent la reconnaissance caractère par caractère, offrant une supériorité en précision mais une vitesse d’inférence lente. À l’inverse, les modèles basés sur le décodage parallèle (PD) infèrent tous les caractères en une seule passe de décodage, ce qui leur confère une vitesse d’inférence plus rapide, mais généralement une précision moindre. Nous présentons tout d’abord une étude empirique du décodage autoregressif en STR, et découvrons que le décodeur AR modélise non seulement le contexte linguistique, mais aussi fournit une guidance pour la perception du contexte visuel. En conséquence, nous proposons le Context Perception Parallel Decoder (CPPD), un modèle capable de prédire la séquence de caractères en une seule passe de décodage parallèle. Le CPPD intègre un module de comptage de caractères pour estimer le nombre d’occurrences de chaque caractère, ainsi qu’un module d’ordonnancement des caractères pour déduire un ordre de lecture indépendant du contenu ainsi que des emplacements réservés (placeholders). Le module de prédiction des caractères associe ensuite ces emplacements aux caractères correspondants. Ces composants ensemble construisent un contexte de reconnaissance complet et riche. Nous avons conçu une série de modèles CPPD, et avons également intégré les modules proposés dans des décodeurs STR existants. Les expériences menées sur des benchmarks en anglais et en chinois démontrent que les modèles CPPD atteignent une précision très compétitive tout en étant environ 8 fois plus rapides que leurs homologues basés sur le décodage autoregressif. En outre, les modèles améliorés par l’insertion de nos modules connaissent des gains significatifs en précision. Le code est disponible à l’adresse suivante : \href{https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_rec_cppd_en.md}{ce lien URL}.