Long Short-Term Memory für die japanische Worttrennung

Diese Studie stellt einen Ansatz mit Long Short-Term Memory (LSTM)-Neuronennetzen für die japanische Worttrennung (JWS) vor. Frühere Studien zur chinesischen Worttrennung (CWS) hatten Erfolg mit rekurrenten Neuronennetzen wie LSTM und Gated Recurrent Units (GRU). Im Gegensatz zum Chinesischen enthält Japanisch jedoch mehrere Schriftarten, wie Hiragana, Katakana und Kanji, die orthographische Variationen verursachen und die Schwierigkeit der Worttrennung erhöhen. Zudem ist es bei JWS-Aufgaben wichtig, den globalen Kontext zu berücksichtigen, während traditionelle JWS-Methoden auf lokalen Merkmalen basieren. Um dieses Problem anzugehen, schlägt diese Studie einen LSTM-basierten Ansatz für die JWS vor. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene Modell den Stand der Technik in Bezug auf verschiedene japanische Korpora erreicht.