HyperAIHyperAI
il y a 14 jours

Rompre le goulot d’étranglement de la représentation des caractères chinois : Traduction automatique par neurones avec modélisation de la séquence d’traits

Zhijun Wang, Xuebo Liu, Min Zhang
Rompre le goulot d’étranglement de la représentation des caractères chinois : Traduction automatique par neurones avec modélisation de la séquence d’traits
Résumé

Les recherches existantes traitent généralement le caractère chinois comme unité minimale de représentation. Toutefois, une telle représentation des caractères chinois est confrontée à deux limites majeures : 1) le goulot d’étranglement d’apprentissage, car l’apprentissage ne peut tirer parti des riches caractéristiques internes des caractères (par exemple, les radicaux et les traits) ; et 2) le goulot d’étranglement des paramètres, car chaque caractère doit être représenté par un vecteur unique. Dans cet article, nous proposons une nouvelle méthode de représentation des caractères chinois, nommée StrokeNet, conçue pour surmonter ces limites. StrokeNet représente un caractère chinois par une séquence de traits latinisés (par exemple, « ao1 (concave) » devient « ajaie », et « tu1 (convex) » devient « aeaqe »). Plus précisément, StrokeNet associe chaque trait à un caractère latin spécifique, permettant ainsi que des caractères chinois similaires aient des représentations latines similaires. L’intégration de StrokeNet dans les systèmes de traduction automatique par réseaux neuronaux (NMT) rend désormais possible l’application de nombreuses techniques puissantes mais auparavant inapplicables aux langues non latines (par exemple, l’apprentissage partagé du vocabulaire de sous-mots et l’augmentation de données basée sur le chiffrement). Des expériences menées sur des tâches standard de NMT, notamment NIST Chinois-Anglais, WMT17 Chinois-Anglais et IWSLT17 Japonais-Anglais, montrent que StrokeNet permet d’obtenir une amélioration significative des performances par rapport aux modèles de référence forts, tout en utilisant moins de paramètres. Sur la tâche WMT17 Chinois-Anglais, StrokeNet atteint un score de 26,5 BLEU, surpassant ainsi tous les résultats précédemment rapportés sans recourir à des données monolingues. Le code source et les scripts sont disponibles librement à l’adresse suivante : https://github.com/zjwang21/StrokeNet.

Rompre le goulot d’étranglement de la représentation des caractères chinois : Traduction automatique par neurones avec modélisation de la séquence d’traits | Articles de recherche récents | HyperAI