HyperAIHyperAI
il y a 7 jours

Un jeu de données pour l’analyse des mises en page complexes dans les humanités numériques et son évaluation au moyen du coefficient Alpha de Krippendorff

{Volker Rodehorst, Benno Stein, Franziska Klemstein, David Tschirschwitz}
Un jeu de données pour l’analyse des mises en page complexes dans les humanités numériques et son évaluation au moyen du coefficient Alpha de Krippendorff
Résumé

Nous introduisons une nouvelle ressource de recherche sous la forme d’un jeu de données de haute qualité, spécifique à un domaine, destiné à l’analyse de la mise en page des documents historiques. Ce jeu de données fournit une vérité terrain en segmentation d’instances, répartie en 19 catégories, fondée sur des structures de mise en page historiques issues (a) du processus de production éditoriale et des genres correspondants (sciences de la vie, architecture, art, arts décoratifs, etc.) et (b) de registres textuels sélectionnés (tels que monographie, revue commerciale, magazine illustré). L’ensemble des données comprend globalement plus de 52 000 instances annotées par des experts. Une base de référence a été testée à l’aide du modèle bien connu Mask R-CNN, puis comparée à un modèle de pointe, VSR. Inspirés des pratiques d’évaluation issues du domaine du traitement automatique des langues naturelles (NLP), nous avons développé une nouvelle méthode d’évaluation de la cohérence des annotations. Cette méthode repose sur le coefficient alpha de Krippendorff (K-α), une statistique permettant de mesurer l’« accord entre annotateurs » (inter-annotator-agreement). En particulier, nous proposons une adaptation du K-α qui traite les annotations comme un graphe multipartite afin d’évaluer l’accord entre un nombre variable d’annotateurs. La méthode est ajustable en fonction du degré de rigueur exigé et peut être appliquée en 2D ou 3D, ainsi que pour diverses tâches telles que la segmentation sémantique, la segmentation d’instances ou la segmentation de nuages de points en 3D.

Un jeu de données pour l’analyse des mises en page complexes dans les humanités numériques et son évaluation au moyen du coefficient Alpha de Krippendorff | Articles de recherche récents | HyperAI