Segmentation de mise en page de documents à précision pixel-à-pixel avec peu d'exemples grâce à la génération dynamique d'instances et au seuillage local
Au fil des années, la communauté des humanités a progressivement exprimé le besoin de développer des cadres d’intelligence artificielle afin d’accompagner l’étude du patrimoine culturel. La segmentation de la mise en page des documents, qui vise à identifier les différentes composantes structurelles d’une page, constitue une tâche particulièrement pertinente dans ce contexte, notamment lorsqu’il s’agit de textes manuscrits. Bien qu’il existe de nombreuses approches efficaces pour ce problème, elles reposent toutes sur de grandes quantités de données pour l’entraînement des modèles sous-jacents, ce qui est rarement réalisable dans un contexte réel : la production d’une segmentation de référence (ground truth) avec la précision requise au niveau du pixel est une tâche extrêmement chronophage, et nécessite souvent une certaine expertise spécifique au domaine des documents concernés. C’est pourquoi, dans ce travail, nous proposons un cadre efficace d’apprentissage par peu d’exemples (few-shot learning) pour la segmentation de la mise en page des documents, fondé sur deux composants novateurs : une génération dynamique d’instances et un module de raffinement de segmentation. Cette approche parvient à atteindre des performances comparables à l’état de l’art sur le jeu de données populaire Diva-HisDB, tout en s’appuyant uniquement sur une fraction des données disponibles.