il y a 6 mois

Résumé

La reconnaissance de texte scènique (STR) est un domaine de recherche actif en vision par ordinateur depuis de nombreuses années. Pour relever ce défi, de nombreuses méthodes innovantes ont été successivement proposées, et l’intégration de connaissances linguistiques dans les modèles STR est devenue récemment une tendance marquante. Dans ce travail, nous nous inspirons d’abord des avancées récentes des Vision Transformer (ViT) pour concevoir un modèle STR visuel conceptuellement simple mais puissant, basé sur ViT et surpassant les modèles d’état de l’art précédents en reconnaissance de texte scènique, qu’il s’agisse de modèles purement visuels ou d’approches enrichies par des connaissances linguistiques. Pour intégrer les connaissances linguistiques, nous proposons par la suite une stratégie de prédiction multi-granulaire (Multi-Granularity Prediction, MGP), permettant d’injecter de l’information issue du mode linguistique de manière implicite : en plus de la représentation classique au niveau des caractères, nous introduisons dans l’espace de sortie des représentations de sous-mots (BPE et WordPiece), largement utilisées en traitement du langage naturel (NLP), sans recourir à un modèle linguistique indépendant. L’algorithme résultant (dénommé MGP-STR) parvient à pousser encore plus loin les performances du STR. Plus précisément, il atteint une précision moyenne de reconnaissance de 93,35 % sur des benchmarks standards. Le code est disponible à l’adresse suivante : https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/MGP-STR.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Vision Par Ordinateur

Traitement Du Langage Naturel

Approche/Framework

Traitement Du Langage Naturel

Vision Par Ordinateur

Tâche

Peng Wang Cheng Da Cong Yao

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Vision Par Ordinateur

Traitement Du Langage Naturel

Approche/Framework

Traitement Du Langage Naturel

Vision Par Ordinateur

Tâche

Peng Wang Cheng Da Cong Yao

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Prédiction à Multi-Granularité pour la Reconnaissance de Texte dans les Scènes

Peng Wang Cheng Da Cong Yao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Prédiction à Multi-Granularité pour la Reconnaissance de Texte dans les Scènes

Peng Wang Cheng Da Cong Yao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Prédiction à Multi-Granularité pour la Reconnaissance de Texte dans les Scènes

Peng Wang Cheng Da Cong Yao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters