HyperAIHyperAI

Command Palette

Search for a command to run...

OrigamiNet : reconnaissance de texte sur toute la page, en un seul passage, sans segmentation et faiblement supervisée, en apprenant à déplier

Mohamed Yousef Tom E. Bishop

Résumé

La reconnaissance de texte est une tâche majeure en vision par ordinateur, associée à un large ensemble de défis. L’un de ces défis traditionnels réside dans le couplage intrinsèque entre la reconnaissance et la segmentation du texte. Ce problème a été progressivement résolu au fil des décennies, passant des approches fondées sur la segmentation à des méthodes sans segmentation, qui se sont avérées plus précises et bien moins coûteuses en termes d’étiquetage des données. Nous franchissons une étape supplémentaire, en nous dirigeant vers une reconnaissance multi-lignes ou complète de page, à partir des méthodes sans segmentation pour une seule ligne. Nous proposons un nouveau module de réseau neuronal simple, appelé \textbf{OrigamiNet}, capable d’augmenter tout reconnaissant de texte entièrement convolutif entraîné par CTC (Connectionist Temporal Classification), pour le transformer en une version multi-lignes. Ce module fournit au modèle une capacité spatiale suffisante afin de comprimer correctement un signal d’entrée 2D en un signal 1D, sans perte d’information. Ces réseaux modifiés peuvent être entraînés exactement selon leur procédure initiale simple, en utilisant uniquement des paires d’images et de textes non segmentés. Nous menons une série d’expériences d’interprétabilité qui démontrent que nos modèles entraînés apprennent implicitement une segmentation précise des lignes. Nous atteignons des taux d’erreur par caractère (CER) au niveau de l’état de l’art sur les benchmarks IAM et ICDAR 2017 pour la reconnaissance d’écriture manuscrite, surpassant ainsi toutes les autres méthodes décrites dans la littérature. Sur IAM, nous surpassons même les méthodes à une seule ligne qui utilisent des informations de localisation précises pendant l’entraînement. Le code est disponible en ligne à l’adresse suivante : \url{https://github.com/IntuitionMachines/OrigamiNet}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp