HyperAIHyperAI
il y a 2 mois

Un réseau neuronal convolutif entraînable de bout en bout pour la reconnaissance de séquences basée sur les images et son application à la reconnaissance du texte dans les scènes

Baoguang Shi; Xiang Bai; Cong Yao
Un réseau neuronal convolutif entraînable de bout en bout pour la reconnaissance de séquences basée sur les images et son application à la reconnaissance du texte dans les scènes
Résumé

La reconnaissance de séquences basée sur des images est un sujet de recherche de longue date en vision par ordinateur. Dans cet article, nous examinons le problème de la reconnaissance du texte dans les scènes, qui est l'une des tâches les plus importantes et les plus difficiles dans la reconnaissance de séquences basée sur des images. Nous proposons une nouvelle architecture de réseau neuronal qui intègre l'extraction de caractéristiques, la modélisation de séquences et la transcription dans un cadre unifié.Par rapport aux systèmes précédents pour la reconnaissance du texte dans les scènes, l'architecture proposée présente quatre propriétés distinctives : (1) Elle est entraînable d'un bout à l'autre, contrairement à la plupart des algorithmes existants dont les composants sont entraînés et ajustés séparément. (2) Elle gère naturellement des séquences de longueur arbitraire, sans nécessiter de segmentation de caractères ou de normalisation d'échelle horizontale. (3) Elle n'est pas limitée à un lexique prédéfini et obtient des performances remarquables tant dans les tâches de reconnaissance du texte dans les scènes sans lexique que basées sur un lexique. (4) Elle génère un modèle efficace mais beaucoup plus petit, ce qui le rend plus pratique pour des scénarios d'application réels.Les expériences menées sur des benchmarks standards, notamment les ensembles de données IIIT-5K, Street View Text et ICDAR, démontrent la supériorité de l'algorithme proposé par rapport aux techniques antérieures. De plus, l'algorithme proposé donne également d'excellents résultats dans la tâche de reconnaissance des partitions musicales basée sur des images, ce qui confirme évidemment sa généralité.

Un réseau neuronal convolutif entraînable de bout en bout pour la reconnaissance de séquences basée sur les images et son application à la reconnaissance du texte dans les scènes | Articles de recherche récents | HyperAI