HyperAIHyperAI
il y a un mois

Impact de la qualité des corpus sur la traduction automatique neuronale

Matīss Rikters
Impact de la qualité des corpus sur la traduction automatique neuronale
Résumé

Les grands corpus parallèles obtenus automatiquement à partir du web, de documents ou d'autres sources présentent souvent de nombreuses parties corrompues susceptibles d'affecter négativement la qualité des systèmes et modèles qui apprennent à partir de ces corpus. Cet article décrit les problèmes fréquents rencontrés dans les données et l'impact de ces données sur les systèmes de traduction automatique neuronale, ainsi que les méthodes pour les identifier et y remédier. Les solutions sont résumées dans un ensemble de scripts permettant d'éliminer les phrases problématiques des corpus d'entrée.

Impact de la qualité des corpus sur la traduction automatique neuronale | Articles de recherche récents | HyperAI