il y a 15 jours

Prêtez attention à ce que vous lisez : reconnaissance de lignes de texte manuscrit non récurrente

Lei Kang, Pau Riba, Marçal Rusiñol, Alicia Fornés, Mauricio Villegas

Résumé

L'apparition des réseaux de neurones récurrents pour la reconnaissance d'écriture manuscrite a marqué une étape importante, permettant d'atteindre des taux de précision remarquables malgré la grande variabilité observée entre les différents styles d'écriture. Les architectures séquentielles s'avèrent particulièrement adaptées pour modéliser les lignes de texte, non seulement en raison de l'aspect temporel inhérent au texte, mais aussi pour apprendre des distributions de probabilité sur les séquences de caractères et de mots. Toutefois, l'utilisation de ces paradigmes récurrents comporte un coût significatif en phase d'entraînement, car leurs pipelines séquentiels empêchent toute forme de parallélisation. Dans ce travail, nous introduisons une approche non récurrente pour la reconnaissance d'écriture manuscrite basée sur des modèles Transformer. Nous proposons une méthode novatrice qui élimine toute forme de récurrence. En exploitant des couches d'attention auto-attention multi-têtes à la fois au niveau visuel et au niveau textuel, nous parvenons à traiter à la fois la reconnaissance de caractères et l'apprentissage des dépendances linguistiques au sein des séquences de caractères à décoder. Notre modèle n'est soumis à aucune contrainte liée à un vocabulaire prédéfini, lui permettant ainsi de reconnaître des mots hors vocabulaire, c’est-à-dire des mots n’apparaissant pas dans le vocabulaire d’entraînement. Nous progressons de manière significative par rapport aux travaux antérieurs et démontrons que des taux de précision satisfaisants peuvent être obtenus même dans des scénarios d’apprentissage à très peu d’exemples (few-shot learning).