il y a un mois
Impact de la qualité des corpus sur la traduction automatique neuronale
Matīss Rikters

Résumé
Les grands corpus parallèles obtenus automatiquement à partir du web, de documents ou d'autres sources présentent souvent de nombreuses parties corrompues susceptibles d'affecter négativement la qualité des systèmes et modèles qui apprennent à partir de ces corpus. Cet article décrit les problèmes fréquents rencontrés dans les données et l'impact de ces données sur les systèmes de traduction automatique neuronale, ainsi que les méthodes pour les identifier et y remédier. Les solutions sont résumées dans un ensemble de scripts permettant d'éliminer les phrases problématiques des corpus d'entrée.