HyperAIHyperAI

Command Palette

Search for a command to run...

Mask TextSpotter v3 : Réseau de proposition de segmentation pour une détection de texte en scène robuste

Minghui Liao Guan Pang Jing Huang Tal Hassner Xiang Bai

Résumé

Les méthodes récentes entièrement entraînables pour la détection et la reconnaissance de texte dans les scènes, intégrant détection et reconnaissance dans un même cadre, ont connu des progrès significatifs. Toutefois, la plupart des détecteurs actuels de texte en forme arbitraire s'appuient sur des réseaux de propositions régionales (RPN) pour générer des propositions. Le RPN dépend fortement d'ancres prédéfinies manuellement, et ses propositions sont représentées sous forme de rectangles alignés aux axes. Cette approche pose des difficultés pour traiter des instances de texte à rapports d'aspect extrêmes ou à formes irrégulières, tandis que la représentation rectangulaire peut englober plusieurs instances voisines dans une seule proposition, notamment dans les cas de texte denses et orientés. Pour surmonter ces limitations, nous proposons Mask TextSpotter v3, un détecteur de texte en scène entièrement entraînable qui remplace le RPN par un Réseau de Propositions par Segmentations (SPN). Notre SPN est indépendant des ancres et fournit des représentations précises pour des propositions de forme arbitraire. Il se révèle donc supérieur au RPN pour la détection d'instances de texte à rapports d'aspect extrêmes ou à formes irrégulières. En outre, les propositions précises générées par le SPN permettent d'utiliser des caractéristiques RoI masquées afin de séparer efficacement les instances de texte voisines. En conséquence, Mask TextSpotter v3 est capable de traiter des instances de texte à rapports d'aspect extrêmes ou à formes irrégulières, sans que sa précision de reconnaissance soit affectée par des textes voisins ou le bruit de fond. Plus précisément, nous surpassons les méthodes de pointe de 21,9 % sur le jeu de données Rotated ICDAR 2013 (robustesse à la rotation), de 5,9 % sur Total-Text (robustesse à la forme), et atteignons des performances de pointe sur MSRA-TD500 (robustesse au rapport d'aspect). Le code est disponible à l'adresse suivante : https://github.com/MhLiao/MaskTextSpotterV3


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp