
要約
ニューラルシーケンスラベリングの品質に直接的かつ顕著な影響を与える要因の一つは、豊かな意味的・構文的表現ベクトルを生成するために入力特徴の選定と符号化を行うことである。本論文では、シーケンスラベリング問題の中でも特にNamed Entity Recognition(NER)というタスクに焦点を当て、深層ニューラルネットワークモデルを提案する。本モデルは、文字レベルおよび大文字化特徴、および単語レベルの文脈表現を十分に活用するため、3つのサブネットワークから構成されている。モデルの多言語への汎化能力を検証するため、ロシア語、ベトナム語、英語、中国語の4言語において評価を行った結果、それぞれGareevデータセット、VLSP-2016、CoNLL-2003、MSRAデータセットにおいて、F-Measureで91.10%、94.43%、91.22%、92.95%という最先端の性能を達成した。さらに、学習および開発用データセットにたった100サンプルのみを用いても、F1スコア約70%という良好な性能を達成した。