
要約
中国語の固有表現認識(NER)は、自然な区切り記号が不足しているため、重要かつ困難です。そのため、中国語の単語分割(CWS)は通常、中国語NERの最初のステップとして考えられています。しかし、単語レベルの埋め込みと辞書特徴を基にしたモデルは、分割エラーと未知語(Out-of-Vocabulary: OOV)の問題にしばしば直面します。本論文では、キャラクターベースの畳み込みニューラルネットワーク(CNN)とローカルアテンション層、およびゲート付き再帰ユニット(GRU)とグローバルセルフアテンション層から構成される畳み込みアテンションネットワーク(CAN)を中国語NERに適用することを調査します。このネットワークは、隣接する文字や文脈からの情報を捉えるために設計されています。また、他のモデルと比較して、当モデルは外部リソースである辞書に依存せず、小さなサイズのキャラクターベクトルを使用することで実用性が高まっています。広範な実験結果により、当手法はWeibo, MSRA, 中国語履歴書NERデータセットなどの異なるドメインデータセットにおいて、単語埋め込みや外部辞書リソースなしで最先端の方法を上回ることが示されました。