HyperAIHyperAI
il y a 17 jours

MTet : Traduction multi-domaines pour l'anglais et le vietnamien

Chinh Ngo, Trieu H. Trinh, Long Phan, Hieu Tran, Tai Dang, Hieu Nguyen, Minh Nguyen, Minh-Thang Luong
MTet : Traduction multi-domaines pour l'anglais et le vietnamien
Résumé

Nous présentons MTet, le plus grand corpus parallèle publiquement disponible pour la traduction anglais-vietnamien. MTet comprend 4,2 millions de paires de phrases d'entraînement de haute qualité ainsi qu'un ensemble de tests multi-domaines révisé par la communauté de recherche vietnamienne. En combinant ces données avec les travaux antérieurs sur la traduction anglais-vietnamien, nous avons étendu le jeu de données parallèle existant à 6,2 millions de paires de phrases. Nous publions également le premier modèle pré-entraîné, EnViT5, pour les langues anglais et vietnamien. En combinant ces deux ressources, notre modèle dépasse significativement les résultats précédents de l'état de l'art, avec une amélioration allant jusqu'à 2 points sur le score BLEU de traduction, tout en étant 1,6 fois plus petit.

MTet : Traduction multi-domaines pour l'anglais et le vietnamien | Articles de recherche récents | HyperAI