
要約
ニューラルネットワークモデルは、特徴工学の手間を最小限に抑えることができる点から、特に中国語における単語分割に積極的に応用されてきた。代表的な分割モデルは、正確な推論を実現するための文字ベースモデルと、単語レベルの情報を活用するための単語ベースモデルに分類される。本研究では、両モデルの利点を活かすために、単語情報を活用する文字ベースモデルを提案する。本モデルは、アテンション機構に基づき、ある文字に対して複数の候補単語の重要性を学習し、その情報を分割決定に活用する。実験の結果、日本語および中国語のベンチマークデータセットにおいて、既存の最先端モデルを上回る性能を達成した。