HyperAIHyperAI
il y a 2 mois

STN-OCR : Un seul réseau neuronal pour la détection et la reconnaissance de texte

Christian Bartz; Haojin Yang; Christoph Meinel
STN-OCR : Un seul réseau neuronal pour la détection et la reconnaissance de texte
Résumé

La détection et la reconnaissance de texte dans des images de scènes naturelles constituent une tâche complexe qui n'est pas encore entièrement résolue. Au cours des dernières années, plusieurs nouveaux systèmes visant à résoudre au moins l'un des deux sous-tâches (détection de texte et reconnaissance de texte) ont été proposés. Dans cet article, nous présentons STN-OCR, une avancée vers les réseaux neuronaux semi-supervisés pour la reconnaissance de texte en scène, qui peut être optimisé d'une manière bout-en-bout. Contrairement à la plupart des travaux existants qui comprennent plusieurs réseaux neuronaux profonds et plusieurs étapes de prétraitement, nous proposons d'utiliser un seul réseau neuronal profond capable d'apprendre à détecter et reconnaître le texte à partir d'images naturelles de manière semi-supervisée. STN-OCR est un réseau qui intègre et apprend conjointement un réseau de transformateur spatial (Spatial Transformer Network), capable d'apprendre à détecter les régions contenant du texte dans une image, et un réseau de reconnaissance de texte qui prend ces régions identifiées et reconnaît leur contenu textuel. Nous examinons comment notre modèle se comporte sur une gamme de tâches différentes (détection et reconnaissance de caractères, ainsi que de lignes de texte). Les résultats expérimentaux sur des ensembles de données基准数据集表明我们的模型能够在各种不同的任务中表现出色,而无需对其整体网络结构进行重大更改。(public benchmark datasets show the ability of our model to handle a variety of different tasks without substantial changes in its overall network structure.)请注意,最后一句中的“基准数据集”(public benchmark datasets)和“表现出色”(show the ability...to handle...tasks)已经根据法语文本进行了调整,以确保流畅性和准确性。