HyperAIHyperAI

Command Palette

Search for a command to run...

Prédiction à Multi-Granularité pour la Reconnaissance de Texte dans les Scènes

Peng Wang Cheng Da Cong Yao

Résumé

La reconnaissance de texte scènique (STR) est un domaine de recherche actif en vision par ordinateur depuis de nombreuses années. Pour relever ce défi, de nombreuses méthodes innovantes ont été successivement proposées, et l’intégration de connaissances linguistiques dans les modèles STR est devenue récemment une tendance marquante. Dans ce travail, nous nous inspirons d’abord des avancées récentes des Vision Transformer (ViT) pour concevoir un modèle STR visuel conceptuellement simple mais puissant, basé sur ViT et surpassant les modèles d’état de l’art précédents en reconnaissance de texte scènique, qu’il s’agisse de modèles purement visuels ou d’approches enrichies par des connaissances linguistiques. Pour intégrer les connaissances linguistiques, nous proposons par la suite une stratégie de prédiction multi-granulaire (Multi-Granularity Prediction, MGP), permettant d’injecter de l’information issue du mode linguistique de manière implicite : en plus de la représentation classique au niveau des caractères, nous introduisons dans l’espace de sortie des représentations de sous-mots (BPE et WordPiece), largement utilisées en traitement du langage naturel (NLP), sans recourir à un modèle linguistique indépendant. L’algorithme résultant (dénommé MGP-STR) parvient à pousser encore plus loin les performances du STR. Plus précisément, il atteint une précision moyenne de reconnaissance de 93,35 % sur des benchmarks standards. Le code est disponible à l’adresse suivante : https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/MGP-STR.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp