
要約
中国語固有名称抽出(NER)タスクにおいて、語彙(lexicon)を活用する文字ベースのモデルは有望な成果を上げているが、誤って一致した語彙語が誤った情報を導入する問題が存在する。既存の研究では、語彙知識を統合するための多数の戦略が提案されている。しかし、それらは単純な一次元語彙知識に依存しており、語彙情報が不十分であり、語の境界一致の衝突という課題に直面している。あるいは、グラフ構造を用いて高次の語彙知識を探索した研究もあるが、その際、負例語(negative words)の導入が識別精度を低下させる要因となることがある。こうした課題を緩和するため、本研究では、文内の各文字に対して二次元語彙知識(Second-order Lexicon Knowledge, SLK)の新たな視点を提示し、意味的特徴および語境界特徴を含むより豊かな語彙情報の提供を目指す。これに基づき、上記の語彙知識を効果的に統合するための新規戦略を採用したSLKに基づくモデルを提案する。本モデルは、グローバルな文脈を活用することで、より明確な語彙情報の抽出が可能となる。3つの公開データセットにおける実験結果から、SLKの有効性が実証された。また、最先端の比較手法と比較して、提案モデルはより優れた性能を達成した。