HyperAIHyperAI
vor 2 Monaten

CiteFusion: Ein Ensemble-Framework für die Klassifizierung der Zitierintention, das Duale Modell-Binärpaare und SHAP-Analysen nutzt

Lorenzo Paolini; Sahar Vahdati; Angelo Di Iorio; Robert Wardenga; Ivan Heibi; Silvio Peroni
CiteFusion: Ein Ensemble-Framework für die Klassifizierung der Zitierintention, das Duale Modell-Binärpaare und SHAP-Analysen nutzt
Abstract

Das Verständnis der Motivationen hinter wissenschaftlichen Zitaten ist entscheidend, um den Forschungseinsatz zu bewerten und eine transparente wissenschaftliche Kommunikation zu fördern. Diese Studie stellt CiteFusion vor, ein Ensemble-Framework, das entwickelt wurde, um die multiklassen-Zitierintention-Klassifizierungsaufgabe auf zwei Benchmark-Datensätzen durchzuführen: SciCite und ACL-ARC. Das Framework verwendet eine One-vs-All-Zerlegung der multiklassen-Aufgabe in klassenspezifische binäre Teilprobleme und nutzt ergänzende Paare von SciBERT- und XLNet-Modellen, die jeweils unabhängig angepasst wurden, für jede Zitierintention. Die Ausgaben dieser Basismodelle werden durch einen Feedforward-Neural-Network-Meta-Klassifikator aggregiert, um die ursprüngliche Klassifizierungsaufgabe wiederherzustellen. Um die Interpretierbarkeit zu verbessern, wird SHAP (SHapley Additive exPlanations) eingesetzt, um Token-Level-Beiträge und Interaktionen zwischen den Basismodellen zu analysieren. Dies bietet Transparenz in die Klassifizierungsdynamik von CiteFusion und Erkenntnisse über die Art der Fehlklassifizierungen des Ensembles. Darüber hinaus untersucht diese Arbeit die semantische Rolle des strukturellen Kontexts, indem Abschnittstitel als Rahmengeräte in Eingangssätze integriert werden, um ihren positiven Einfluss auf die Klassifizierungsgenauigkeit zu bewerten. CiteFusion zeigt letztlich robuste Leistung in unbalancierten und datenarmen Szenarien: Experimentelle Ergebnisse zeigen, dass CiteFusion den Stand der Technik erreicht, mit Makro-F1-Werten von 89,60 % auf SciCite und 76,24 % auf ACL-ARC. Des Weiteren wird zur Sicherstellung der Interoperabilität und Wiederverwendbarkeit die Abbildung der Zitierintentionen aus beiden Datensatz-Schemata auf Objekteigenschaften der Zitier-Typologie-Ontologie (CiTO) vorgenommen, wobei einige Überschneidungen hervorgehoben werden. Schließlich beschreiben wir und veröffentlichen eine webbasierte Anwendung, die Zitierintentionen unter Verwendung der auf SciCite entwickelten CiteFusion-Modelle klassifiziert.

CiteFusion: Ein Ensemble-Framework für die Klassifizierung der Zitierintention, das Duale Modell-Binärpaare und SHAP-Analysen nutzt | Neueste Forschungsarbeiten | HyperAI