Un décodeur au niveau des caractères sans segmentation explicite pour la traduction automatique neuronale

Les systèmes de traduction automatique existants, qu'ils soient basés sur des phrases ou neuronaux, ont presque exclusivement reposé sur la modélisation au niveau des mots avec une segmentation explicite. Dans cet article, nous posons une question fondamentale : peut-on générer une séquence de caractères sans aucune segmentation explicite dans la traduction automatique neuronale ? Pour répondre à cette question, nous évaluons un encodeur-décodeur basé sur l'attention, doté d'un encodeur au niveau des sous-mots et d'un décodeur au niveau des caractères, sur quatre paires linguistiques -- En-Cs, En-De, En-Ru et En-Fi -- en utilisant les corpus parallèles du WMT'15. Nos expériences montrent que les modèles dotés d'un décodeur au niveau des caractères surpassent ceux dotés d'un décodeur au niveau des sous-mots pour toutes les quatre paires linguistiques. De plus, les ensembles de modèles neuronaux dotés d'un décodeur au niveau des caractères surpassent les systèmes de traduction automatique non neuronaux de pointe pour les paires En-Cs, En-De et En-Fi et présentent des performances comparables pour la paire En-Ru.