HyperAIHyperAI
il y a 2 mois

DAN : un Réseau d'Attention sur Documents sans Segmentation pour la Reconnaissance de Documents Manuscrits

Coquenet, Denis ; Chatelain, Clément ; Paquet, Thierry
DAN : un Réseau d'Attention sur Documents sans Segmentation pour la Reconnaissance de Documents Manuscrits
Résumé

La reconnaissance de texte manuscrit non contraint est une tâche complexe en vision par ordinateur. Elle est traditionnellement traitée par une approche en deux étapes, combinant la segmentation de lignes suivie de la reconnaissance des lignes de texte. Pour la première fois, nous proposons une architecture intégrée sans segmentation pour la tâche de reconnaissance de documents manuscrits : le Réseau d'Attention Documentaire (Document Attention Network). En plus de la reconnaissance du texte, le modèle est formé pour étiqueter les parties du texte à l'aide de balises début et fin dans un style XML. Ce modèle se compose d'un encodeur FCN (Fully Convolutional Network) pour l'extraction des caractéristiques et d'une pile de couches décodeur transformer pour un processus de prédiction récurrente token par token. Il prend en entrée des documents textuels entiers et produit séquentiellement des caractères ainsi que des jetons de mise en page logique. Contrairement aux approches existantes basées sur la segmentation, le modèle est formé sans utiliser aucune étiquette de segmentation. Nous obtenons des résultats compétitifs sur l'ensemble de données READ 2016 au niveau de la page, ainsi qu'au niveau des doubles pages avec un TCR (Taux de Caractères Reconnus) respectivement de 3,43 % et 3,70 %. Nous fournissons également des résultats pour l'ensemble de données RIMES 2009 au niveau de la page, atteignant un TCR de 4,54 %.Nous mettons à disposition tout le code source et les poids pré-entraînés du modèle sur https://github.com/FactoDeepLearning/DAN.