HyperAIHyperAI
il y a 15 jours

Prédiction à Multi-Granularité pour la Reconnaissance de Texte dans les Scènes

Peng Wang, Cheng Da, Cong Yao
Prédiction à Multi-Granularité pour la Reconnaissance de Texte dans les Scènes
Résumé

La reconnaissance de texte scènique (STR) est un domaine de recherche actif en vision par ordinateur depuis de nombreuses années. Pour relever ce défi, de nombreuses méthodes innovantes ont été successivement proposées, et l’intégration de connaissances linguistiques dans les modèles STR est devenue récemment une tendance marquante. Dans ce travail, nous nous inspirons d’abord des avancées récentes des Vision Transformer (ViT) pour concevoir un modèle STR visuel conceptuellement simple mais puissant, basé sur ViT et surpassant les modèles d’état de l’art précédents en reconnaissance de texte scènique, qu’il s’agisse de modèles purement visuels ou d’approches enrichies par des connaissances linguistiques. Pour intégrer les connaissances linguistiques, nous proposons par la suite une stratégie de prédiction multi-granulaire (Multi-Granularity Prediction, MGP), permettant d’injecter de l’information issue du mode linguistique de manière implicite : en plus de la représentation classique au niveau des caractères, nous introduisons dans l’espace de sortie des représentations de sous-mots (BPE et WordPiece), largement utilisées en traitement du langage naturel (NLP), sans recourir à un modèle linguistique indépendant. L’algorithme résultant (dénommé MGP-STR) parvient à pousser encore plus loin les performances du STR. Plus précisément, il atteint une précision moyenne de reconnaissance de 93,35 % sur des benchmarks standards. Le code est disponible à l’adresse suivante : https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/MGP-STR.

Prédiction à Multi-Granularité pour la Reconnaissance de Texte dans les Scènes | Articles de recherche récents | HyperAI