2 个月前
CiteFusion:一种利用双模型二元对和SHAP分析的引文意图分类集成框架
Lorenzo Paolini; Sahar Vahdati; Angelo Di Iorio; Robert Wardenga; Ivan Heibi; Silvio Peroni

摘要
理解学术引用背后的动机对于评估研究影响和促进透明的学术交流至关重要。本研究介绍了CiteFusion,这是一种集成框架,旨在解决在两个基准数据集(SciCite和ACL-ARC)上的多类引用意图分类任务。该框架通过将多类任务分解为特定类别的二元子任务,并利用经过独立调优的SciBERT和XLNet模型互补对来处理每个引用意图。这些基础模型的输出通过前馈神经网络元分类器进行聚合,以重建原始分类任务。为了提高可解释性,采用了SHAP(Shapley Additive Explanations)方法来分析词汇级别的贡献以及基础模型之间的相互作用,从而揭示CiteFusion分类动态的透明度,并提供关于集成模型误分类类型的见解。此外,本研究还探讨了结构上下文的语义角色,通过将章节标题作为框架装置纳入输入句子中,评估其对分类准确性的积极影响。最终,CiteFusion在不平衡和数据稀缺的情况下表现出强大的性能:实验结果显示,CiteFusion在SciCite上实现了89.60%的宏F1分数,在ACL-ARC上实现了76.24%的宏F1分数,达到了当前最佳水平。此外,为了确保互操作性和可重用性,来自两个数据集模式的引用意图被映射到引用类型本体(CiTO)对象属性上,突显了一些重叠之处。最后,我们描述并发布了一个基于Web的应用程序,该应用程序利用在SciCite上开发的CiteFusion模型来分类引用意图。