HyperAIHyperAI
il y a 2 mois

U-DIADS-Bib : un jeu de données complet et à quelques exemples pour l'analyse de la mise en page de manuscrits anciens

Zottin, Silvia ; De Nardin, Axel ; Colombi, Emanuela ; Piciarelli, Claudio ; Pavan, Filippo ; Foresti, Gian Luca
U-DIADS-Bib : un jeu de données complet et à quelques exemples pour l'analyse de la mise en page de manuscrits anciens
Résumé

L'analyse de la mise en page des documents, qui consiste à identifier différentes régions sémantiques au sein d'une page de document, est un sujet d'un grand intérêt pour les informaticiens et les chercheurs en sciences humaines. Pour les premiers, elle représente une étape fondamentale vers des tâches d'analyse plus avancées, tandis que pour les seconds, elle constitue un outil puissant pour améliorer et faciliter l'étude des documents. Cependant, nombre de travaux actuellement présents dans la littérature, en particulier en ce qui concerne les jeux de données disponibles, ne répondent pas aux besoins des deux mondes et penchent souvent davantage vers ceux et les pratiques courantes du côté informatique, aboutissant ainsi à des ressources qui ne sont pas représentatives des véritables besoins des sciences humaines.C'est pourquoi cet article présente U-DIADS-Bib, un nouveau jeu de données d'analyse de la mise en page des documents développé avec une précision pixel par pixel, sans chevauchement et exempt de bruit, en étroite collaboration entre des spécialistes en vision par ordinateur et en sciences humaines. De plus, nous proposons un nouveau pipeline de segmentation assistée par ordinateur afin d'alléger le fardeau que représente le processus fastidieux d'annotation manuelle nécessaire à la génération des cartes de segmentation de référence.Enfin, nous présentons une version standardisée du jeu de données adaptée aux situations où peu d'exemples sont disponibles (U-DIADS-BibFS), dans le but d'encourager le développement de modèles et de solutions capables d'aborder cette tâche avec un nombre minimal d'échantillons. Cela permettrait une utilisation plus efficace dans des scénarios réels où il n'est pas toujours possible de collecter un grand nombre de segmentations.

U-DIADS-Bib : un jeu de données complet et à quelques exemples pour l'analyse de la mise en page de manuscrits anciens | Articles de recherche récents | HyperAI