HyperAIHyperAI

Command Palette

Search for a command to run...

UTRNet : Reconnaissance de texte ouvrant de haute résolution dans les documents imprimés en ourdou

Abdur Rahman Arjun Ghosh Chetan Arora

Résumé

Dans cet article, nous proposons une nouvelle approche pour relever les défis de la reconnaissance de texte urdu imprimé en utilisant une extraction de caractéristiques sémantiques à haute résolution et à plusieurs échelles. L'architecture UTRNet, un modèle hybride CNN-RNN, démontre des performances de pointe sur des jeux de données de référence. Afin de surmonter les limites des travaux antérieurs, qui peinent à généraliser face à la complexité de l'écriture urdu et au manque de données réelles annotées suffisantes, nous introduisons UTRSet-Real, un grand jeu de données réel annoté comprenant plus de 11 000 lignes, ainsi que UTRSet-Synth, un jeu de données synthétique de 20 000 lignes, très proche de la réalité, et nous corrigeons les étiquettes de référence du jeu de données existant IIITH, ce qui en fait une ressource plus fiable pour les recherches futures. Nous fournissons également UrduDoc, un jeu de données de référence pour la détection de lignes de texte urdu dans des documents numérisés. En outre, nous avons développé un outil en ligne permettant une reconnaissance optique de caractères (OCR) urdu en boucle fermée à partir de documents imprimés, en intégrant UTRNet avec un modèle de détection de texte. Ce travail non seulement surmonte les limitations actuelles de l'OCR urdu, mais ouvre également la voie à de futures recherches dans ce domaine et facilite l'évolution continue de cette technologie. La page du projet, incluant le code source, les jeux de données, les annotations, les modèles entraînés et l'outil en ligne, est disponible à l'adresse abdur75648.github.io/UTRNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp