HyperAIHyperAI

Command Palette

Search for a command to run...

Champ de direction profond pour la détection de texte scénique irrégulier

Yongchao Xu; Yukang Wang; Wei Zhou; Yongpan Wang; Zhibo Yang; Xiang Bai

Résumé

La détection de texte en scène est une étape cruciale des systèmes de lecture de texte en scène. Les principaux défis résident dans les tailles et les rapports d'aspect considérablement variables, ainsi que dans les orientations et formes arbitraires. Grâce aux progrès récents en apprentissage profond, des performances impressionnantes ont été réalisées pour la détection de texte multi-orienté. Cependant, les performances baissent considérablement lorsqu'il s'agit de détecter des textes courbes en raison de la représentation limitée du texte (par exemple, boîtes englobantes horizontales, rectangles pivotés ou quadrilatères). La détection de textes courbes, qui sont en réalité très courants dans les scènes naturelles, suscite un vif intérêt. Dans cet article, nous présentons un nouveau détecteur de texte nommé TextField pour détecter des textes irréguliers en scène. Plus précisément, nous apprenons un champ de direction pointant vers l'extérieur à partir du contour de texte le plus proche pour chaque point de texte. Ce champ de direction est représenté par une image de vecteurs bidimensionnels et appris via un réseau neuronal convolutif entièrement convolutionnel. Il encode à la fois un masque binaire de texte et des informations directionnelles utilisées pour séparer les instances de texte adjacentes, ce qui constitue un défi pour les approches classiques basées sur la segmentation. Sur la base du champ de direction appris, nous appliquons un traitement postérieur morphologique simple mais efficace pour obtenir la détection finale. Les résultats expérimentaux montrent que le TextField proposé surpasse largement les méthodes d'avant-garde avec une marge importante (28 % et 8 %) sur deux jeux de données de texte courbe : Total-Text et CTW1500 respectivement, et atteint également des performances très compétitives sur des jeux de données multi-orientés : ICDAR 2015 et MSRA-TD500. De plus, TextField est robuste lorsqu'il s'agit de généraliser à des jeux de données inconnus. Le code est disponible à l'adresse suivante : https://github.com/YukangWang/TextField.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp