HyperAIHyperAI

Command Palette

Search for a command to run...

Détection efficace et précise de texte de forme arbitraire avec un réseau d'agrégation de pixels

Wenhai Wang∗1, Enze Xie∗2,4, Xiaoge Song1, Yuhang Zang3, Wanjia Wang2, Tong Lu†1, Gang Yu4, and Chunhua Shen5

Résumé

La détection de texte en scène, une étape cruciale des systèmes de lecture de texte en scène, a connu un développement rapide grâce aux réseaux neuronaux convolutifs. Néanmoins, deux défis majeurs persistent et entravent son déploiement dans les applications du monde réel. Le premier problème est le compromis entre la vitesse et la précision. Le second concerne la modélisation d'instances de texte de forme arbitraire. Récemment, certaines méthodes ont été proposées pour aborder la détection de texte de forme arbitraire, mais elles négligent rarement la vitesse du pipeline global, ce qui peut être insuffisant dans les applications pratiques.Dans cet article, nous proposons un détecteur de texte de forme arbitraire à la fois efficace et précis, appelé Réseau d'Aggrégation de Pixels (Pixel Aggregation Network, PAN), doté d'une tête de segmentation à faible coût computationnel et d'un traitement postérieur apprenable. Plus précisément, la tête de segmentation est composée d'un module d'amélioration pyramidale des caractéristiques (Feature Pyramid Enhancement Module, FPEM) et d'un module de fusion des caractéristiques (Feature Fusion Module, FFM). Le FPEM est un module en forme de U cascadeur qui peut introduire des informations multirésolution pour guider une meilleure segmentation. Le FFM peut rassembler les caractéristiques fournies par les FPEMs de différentes profondeurs en une caractéristique finale pour la segmentation. Le traitement postérieur apprenable est mis en œuvre par l'aggrégation des pixels (Pixel Aggregation, PA), qui peut aggréger précisément les pixels du texte par des vecteurs de similarité prédits.Des expériences menées sur plusieurs benchmarks standards ont validé la supériorité du PAN proposé. Il convient de noter que notre méthode peut atteindre un F-mesure compétitif de 79,9% à 84,2 images par seconde (FPS) sur CTW1500.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp