
要約
本研究では、日本語の単語分割(Japanese Word Segmentation: JWS)に長期短期記憶(Long Short-Term Memory: LSTM)ニューラルネットワークアプローチを適用することを提案します。中国語の単語分割(Chinese Word Segmentation: CWS)に関する先行研究では、LSTMや門制再帰ユニット(Gated Recurrent Units: GRU)などの再帰ニューラルネットワークを使用することで成功が見られました。しかし、中国語とは異なり、日本語にはひらがな、カタカナ、漢字など複数の文字種があり、これらは表記変異を生み出し、単語分割の難易度を高めています。さらに、JWSタスクにおいては全体的な文脈を考慮することが重要である一方で、従来のJWSアプローチは局所的な特徴に依存していました。この問題に対処するために、本研究ではLSTMに基づくアプローチを採用することを提案します。実験結果は、提案されたモデルがさまざまな日本語コーパスに対して最先端の精度を達成していることを示しています。