Reconnaissance de l’écriture manuscrite intégrale par extraction d’image vers séquence

Nous présentons une architecture de modèle de reconnaissance de texte manuscrit (HTR) basée sur un réseau de neurones, capable d’être entraînée pour reconnaître des pages entières de texte manuscrit ou imprimé sans segmentation d’images. Fondée sur une architecture Image vers Suite, elle permet d’extraire le texte présent dans une image et de le séquencer correctement, sans imposer de contraintes quant à l’orientation, à la mise en page ou à la taille du texte et du contenu non textuel. En outre, le modèle peut être entraîné pour générer des balises auxiliaires relatives à la mise en forme, à la disposition et au contenu. En utilisant un vocabulaire au niveau des caractères, il permet de traiter la langue et la terminologie propres à tout sujet. Ce modèle atteint un nouveau record d’exactitude au niveau des paragraphes sur le jeu de données IAM. Lorsqu’il est évalué sur des numérisations de réponses manuscrites réelles en format libre — caractérisées par des lignes courbées ou inclinées, des dessins, des tableaux, des formules mathématiques, des symboles chimiques et d’autres éléments — il se distingue par une performance supérieure à celle de toutes les API commerciales disponibles en cloud pour la HTR. Il est actuellement déployé en production dans le cadre d’une application web commerciale.