HyperAIHyperAI
il y a 17 jours

Reconnaissance de texte manuscrit à partir d'annotations provenant de sources collaboratives

Solène Tarride, Tristan Faine, Mélodie Boillet, Harold Mouchère, Christopher Kermorvant
Reconnaissance de texte manuscrit à partir d'annotations provenant de sources collaboratives
Résumé

Dans cet article, nous explorons différentes approches d'entraînement d'un modèle de reconnaissance de texte manuscrit lorsque plusieurs transcriptions imparfaites ou bruitées sont disponibles. Nous examinons diverses configurations d'entraînement, telles que la sélection d'une seule transcription, la conservation de toutes les transcriptions, ou encore le calcul d'une transcription consensus à partir de toutes les annotations disponibles. En outre, nous évaluons l'impact de la sélection des données basée sur la qualité, en éliminant des échantillons présentant un faible niveau d'accord du jeu de données d'entraînement. Nos expérimentations sont menées sur des registres municipaux de la ville de Belfort (France), rédigés entre 1790 et 1946. Les résultats montrent que la construction d'une transcription consensus ou l'entraînement sur plusieurs transcriptions constitue une bonne alternative. Toutefois, la sélection des échantillons d'entraînement en fonction du degré d'accord entre les annotateurs introduit un biais dans les données d'entraînement et ne conduit pas à une amélioration des performances. Notre jeu de données est disponible publiquement sur Zenodo : https://zenodo.org/record/8041668.