
要約
文脈的特徴は中国語の単語分割(CWS)において常に重要な役割を果たす。語彙性(wordhood)情報はそのような文脈的特徴の一つであり、従来の文字ベースの分割器において有用であることが実証されている。しかし、近年のニューラルモデルではこの特徴はあまり注目されておらず、異なる語彙性評価指標から得られる語彙性情報を既存のニューラルフレームワークに適切に統合するための枠組みの設計も困難である。本論文では、このような課題に対処するため、メモリネットワークを用いて複数の代表的なエンコーダ-デコーダ構成と組み合わせて語彙性情報を統合するニューラルフレームワークWMSegを提案する。5つのベンチマークデータセットにおける実験結果から、メモリ機構がニューラル分割器における語彙性情報を効果的にモデル化でき、WMSegがすべてのデータセットで最先端の性能を達成できることを示した。さらに、追加の実験と分析により、本研究で提案するフレームワークが異なる語彙性評価指標に対して高いロバスト性を示し、クロスドメイン実験において語彙性情報の効率的な活用が可能であることが明らかになった。