CiteFusion: 인용 의도 분류를 위한 듀얼 모델 바이너리 커플과 SHAP 분석을 활용한 앙상블 프레임워크

학술 인용의 동기를 이해하는 것은 연구 영향력을 평가하고 투명한 학술 교류를 촉진하는 데 필수적입니다. 본 연구에서는 두 벤치마크 데이터셋인 SciCite와 ACL-ARC에서 다중 클래스 인용 의도 분류 작업을 수행하기 위해 설계된 앙상블 프레임워크인 CiteFusion을 소개합니다. 이 프레임워크는 다중 클래스 작업을 클래스별 이진 하위 작업으로 분해하여, 각 인용 의도에 대해 독립적으로 조정된 SciBERT와 XLNet 모델의 보완적인 쌍을 활용합니다. 이러한 기본 모델들의 출력은 피드포워드 신경망 메타분류기를 통해 집계되어 원래의 분류 작업을 재구성합니다. 해석성을 강화하기 위해 SHAP (SHapley Additive exPlanations)이 사용되어 토큰 수준 기여도와 기본 모델들 간의 상호작용을 분석하며, CiteFusion의 분류 역학에 대한 투명성을 제공하고 앙상블의 오분류 유형에 대한 통찰력을 제시합니다. 또한, 본 연구는 섹션 제목을 입력 문장에 통합하여 구조적 맥락의 의미론적 역할을 조사하고, 이를 통해 분류 정확도에 미치는 긍정적인 영향을 평가합니다. CiteFusion은 불균형하고 데이터가 부족한 시나리오에서도 견고한 성능을 보여주며, 실험 결과 CiteFusion은 SciCite에서 89.60%, ACL-ARC에서 76.24%의 Macro-F1 점수로 최신 기술 수준의 성능을 달성하였습니다. 더불어, 상호운용성과 재사용성을 보장하기 위해 두 데이터셋 스키마의 인용 의도들은 Citation Typing Ontology (CiTO) 객체 속성으로 매핑되며, 일부 중복 사항이 강조되었습니다. 마지막으로, SciCite에서 개발된 CiteFusion 모델들을 활용하여 인용 의도를 분류하는 웹 기반 응용 프로그램을 설명하고 공개합니다.