HyperAIHyperAI
il y a 3 mois

Traduction améliorée pour le vietnamien

{Trieu Trinh, Chinh Ngo}
Traduction améliorée pour le vietnamien
Résumé

Nous collectons des données provenant de sources ouvertes sur Internet, que nous classons ensuite en différentes catégories, chacune étant étiquetée selon un style linguistique spécifique. Au total, notre ensemble de données comprend 3,3 millions de paires de textes en anglais et en vietnamien, allant de phrases simples à des paragraphes complets. Un modèle entraîné sur notre jeu de données obtient de meilleurs résultats que Google Translate sur un ensemble sélectionné de sources textuelles diversifiées. Sur le benchmark IWSLT'15, nous avons atteint un score BLEU de 37,84.