HyperAIHyperAI
il y a 2 mois

CiteFusion : Un Cadre d'Ensemble pour la Classification de l'Intention de Citation Utilisant des Paires Binales à Deux Modèles et des Analyses SHAP

Lorenzo Paolini; Sahar Vahdati; Angelo Di Iorio; Robert Wardenga; Ivan Heibi; Silvio Peroni
CiteFusion : Un Cadre d'Ensemble pour la Classification de l'Intention de Citation Utilisant des Paires Binales à Deux Modèles et des Analyses SHAP
Résumé

Comprendre les motivations sous-jacentes aux citations savantes est essentiel pour évaluer l'impact de la recherche et promouvoir une communication académique transparente. Cette étude introduit CiteFusion, un cadre d'ensemble conçu pour aborder la tâche de classification des intentions de citation à plusieurs classes sur deux ensembles de référence : SciCite et ACL-ARC. Le cadre utilise une décomposition un contre tous (one-vs-all) de la tâche à plusieurs classes en sous-tâches binaires spécifiques à chaque classe, en exploitant des paires complémentaires de modèles SciBERT et XLNet, indépendamment ajustés, pour chaque intention de citation. Les sorties de ces modèles de base sont agrégées par un méta-classifieur neuronal à propagation avant pour reconstruire la tâche de classification initiale. Pour améliorer l'interprétabilité, SHAP (SHapley Additive exPlanations) est utilisé pour analyser les contributions au niveau des jetons et les interactions entre les modèles de base, offrant ainsi une transparence sur la dynamique de classification de CiteFusion et des informations sur le type d'erreurs de classification du modèle d'ensemble. De plus, cette étude examine le rôle sémantique du contexte structurel en intégrant les titres des sections comme dispositifs encadrants dans les phrases d'entrée, évaluant leur impact positif sur la précision de la classification. CiteFusion montre finalement une performance robuste dans des scénarios déséquilibrés et avec peu de données : les résultats expérimentaux indiquent que CiteFusion atteint des performances d'état de l'art, avec des scores Macro-F1 de 89,60 % sur SciCite et 76,24 % sur ACL-ARC. En outre, pour garantir l'interopérabilité et la réutilisabilité, les intentions de citation issues des schémas des deux ensembles de données sont mappées aux propriétés d'objets de l'ontologie CiTO (Citation Typing Ontology), mettant en lumière certaines superpositions. Enfin, nous décrivons et mettons à disposition une application web qui classifie les intentions de citation en utilisant les modèles CiteFusion développés sur SciCite.

CiteFusion : Un Cadre d'Ensemble pour la Classification de l'Intention de Citation Utilisant des Paires Binales à Deux Modèles et des Analyses SHAP | Articles de recherche récents | HyperAI