Command Palette
Search for a command to run...
MTet : Traduction multi-domaines pour l'anglais et le vietnamien
MTet : Traduction multi-domaines pour l'anglais et le vietnamien
Chinh Ngo Trieu H. Trinh Long Phan Hieu Tran Tai Dang Hieu Nguyen Minh Nguyen Minh-Thang Luong
Résumé
Nous présentons MTet, le plus grand corpus parallèle publiquement disponible pour la traduction anglais-vietnamien. MTet comprend 4,2 millions de paires de phrases d'entraînement de haute qualité ainsi qu'un ensemble de tests multi-domaines révisé par la communauté de recherche vietnamienne. En combinant ces données avec les travaux antérieurs sur la traduction anglais-vietnamien, nous avons étendu le jeu de données parallèle existant à 6,2 millions de paires de phrases. Nous publions également le premier modèle pré-entraîné, EnViT5, pour les langues anglais et vietnamien. En combinant ces deux ressources, notre modèle dépasse significativement les résultats précédents de l'état de l'art, avec une amélioration allant jusqu'à 2 points sur le score BLEU de traduction, tout en étant 1,6 fois plus petit.