il y a 17 jours
Traduction améliorée pour le vietnamien
{Trieu Trinh, Chinh Ngo}
Résumé
Nous collectons des données provenant de sources ouvertes sur Internet, que nous classons ensuite en différentes catégories, chacune étant étiquetée selon un style linguistique spécifique. Au total, notre ensemble de données comprend 3,3 millions de paires de textes en anglais et en vietnamien, allant de phrases simples à des paragraphes complets. Un modèle entraîné sur notre jeu de données obtient de meilleurs résultats que Google Translate sur un ensemble sélectionné de sources textuelles diversifiées. Sur le benchmark IWSLT'15, nous avons atteint un score BLEU de 37,84.