HyperAIHyperAI
il y a 7 jours

Extraction automatique des métadonnées intégrant des caractéristiques visuelles à partir de mémoires et thèses électroniques numérisées

Muntabir Hasan Choudhury, Himarsha R. Jayanetti, Jian Wu, William A. Ingram, Edward A. Fox
Extraction automatique des métadonnées intégrant des caractéristiques visuelles à partir de mémoires et thèses électroniques numérisées
Résumé

Les mémoires et thèses électroniques (ETDs) contiennent des connaissances spécialisées pouvant être exploitées pour diverses tâches dans les bibliothèques numériques, telles que l’analyse des réseaux de citations ou la prévision des tendances de recherche. L’extraction automatique des métadonnées est essentielle pour développer des moteurs de recherche évolutifs dans les bibliothèques numériques. La plupart des méthodes existantes sont conçues pour les documents nés numériques, ce qui les rend souvent inadaptées à l’extraction de métadonnées à partir de documents numérisés, comme les ETDs. Les méthodes traditionnelles de marquage de séquences s’appuient principalement sur des caractéristiques textuelles. Dans cet article, nous proposons un modèle de champ aléatoire conditionnel (CRF) combinant des caractéristiques textuelles et visuelles. Pour évaluer la robustesse de notre modèle, nous avons étendu un corpus existant et créé un nouveau corpus de référence comprenant 500 pages de couverture d’ETDs avec des métadonnées validées par des humains. Nos expérimentations montrent que le modèle CRF intégrant des caractéristiques visuelles surpasse à la fois une approche heuristique et un modèle CRF utilisant uniquement des caractéristiques textuelles. Le modèle proposé atteint une mesure F1 comprise entre 81,3 % et 96 % sur sept champs de métadonnées. Les données et le code source sont disponibles publiquement sur Google Drive (https://tinyurl.com/y8kxzwrp) et sur un dépôt GitHub (https://github.com/lamps-lab/ETDMiner/tree/master/etd_crf), respectivement.

Extraction automatique des métadonnées intégrant des caractéristiques visuelles à partir de mémoires et thèses électroniques numérisées | Articles de recherche récents | HyperAI