CiteFusion: 引用意図分類のためのデュアルモデル二値カップルとSHAP解析を活用したアンサンブルフレームワーク

学術引用の背後にある動機を理解することは、研究の影響力を評価し、透明性のある学術コミュニケーションを促進するために不可欠です。本研究では、2つのベンチマークデータセット(SciCiteとACL-ARC)で多クラス引用意図分類タスクを行うための集合フレームワークであるCiteFusionを紹介します。このフレームワークは、多クラスタスクをクラス固有の二値サブタスクに分解する一対全手法を採用しており、各引用意図に対して独立して調整されたSciBERTとXLNetモデルの補完的なペアを使用しています。これらのベースモデルの出力は、フィードフォワードニューラルネットワークメタ分類器を通じて集約され、元の分類タスクが再構築されます。解釈性を向上させるために、SHAP(SHapley Additive exPlanations)がトークンレベルでの貢献度分析やベースモデル間の相互作用解析に使用され、CiteFusionの分類ダイナミクスの透明性とアンサンブルによる誤分類に関する洞察が得られます。さらに、本研究では入力文にセクションタイトルを取り入れることで構造的コンテキストの意味論的役割を調査し、その分類精度への肯定的な影響を評価しています。CiteFusionは最終的に不均衡なデータやデータ不足状況においても堅牢な性能を示しており、実験結果によるとSciCiteでマクロF1スコア89.60%、ACL-ARCで76.24%という最先端の性能を達成しています。また、両データセットのスキーマから引用意図がCiTO(Citation Typing Ontology)オブジェクトプロパティにマッピングされるため、相互運用性と再利用可能性が確保されています。重複部分も強調されています。最後に、SciCite上で開発されたCiteFusionモデルを利用したウェブベースアプリケーションについて説明し、公開します。以上が翻訳となります。ご確認ください。