Étiquetage, découpage, regroupement : une méthode efficace de segmentation des lignes de texte pour les manuscrits médiévaux

Ce document présente une nouvelle méthode pour l'extraction de lignes de texte en intégrant une préclassification basée sur l'apprentissage profond et des méthodes de segmentation de pointe. L'extraction de lignes de texte dans des documents manuscrits complexes représente un défi considérable, même pour les algorithmes les plus modernes de vision par ordinateur. Les manuscrits historiques constituent une classe particulièrement difficile de documents, car ils présentent plusieurs formes de bruit, telles que la dégradation, le transfert d'encre (bleed-through), les glossaires interlinéaires et des caractères élaborés. Dans cette étude, nous proposons une méthode innovante qui utilise la segmentation sémantique au niveau du pixel comme tâche intermédiaire, suivie d'une étape d'extraction de lignes de texte. Nous avons mesuré les performances de notre méthode sur un ensemble de données récent composé de manuscrits médiévaux difficiles et avons surpassé les résultats actuels en réduisant l'erreur de 80,7 %. De plus, nous démontrons l'efficacité de notre approche sur divers autres ensembles de données écrits dans différentes écritures. Ainsi, notre contribution est double. Premièrement, nous montrons que la segmentation sémantique au niveau du pixel peut être utilisée comme étape préalable puissante pour le débruitage avant d'effectuer l'extraction des lignes de texte. Deuxièmement, nous introduisons un nouvel algorithme simple et robuste qui exploite la haute qualité de la segmentation sémantique pour atteindre une performance d'extraction des lignes de texte de 99,42 % en termes d'indice union (line IU) sur un ensemble de données difficile.