17日前
文脈情報とグローバル特徴を統合した固有表現抽出アーキテクチャ
Tran Thi Hong Hanh, Antoine Doucet, Nicolas Sidere, Jose G. Moreno, Senja Pollak

要約
命名エンティティ抽出(Named Entity Recognition, NER)は、文書内に含まれる命名エンティティ(例:組織、場所など)を事前に定義されたカテゴリに分類・特定する情報抽出技術である。これらのエンティティを正しく識別することは、情報へのアクセスを簡素化する上で重要な役割を果たす。しかし、命名エンティティ(NE)には多様な表現形式が存在し、文脈に依存する性質があるため、正確に抽出することは依然として困難な課題である。文脈情報をコンテキスト特徴として表現することは可能であるが、従来のモデルではグローバルな関係性が十分に捉えられていない場合が多い。本論文では、XLNetから得られるコンテキスト特徴と、グラフ畳み込みネットワーク(Graph Convolution Network, GCN)から得られるグローバル特徴を組み合わせることで、NERの性能を向上させる手法を提案する。広く用いられているデータセットCoNLL 2003における実験結果から、本手法の有効性が示され、最先端(SOTA)レベルの性能を達成することが確認された。