HyperAIHyperAI
vor 17 Tagen

MTet: Multi-domain Translation für Englisch und Vietnamesisch

Chinh Ngo, Trieu H. Trinh, Long Phan, Hieu Tran, Tai Dang, Hieu Nguyen, Minh Nguyen, Minh-Thang Luong
MTet: Multi-domain Translation für Englisch und Vietnamesisch
Abstract

Wir stellen MTet vor, den größten öffentlich verfügbaren parallelen Korpus für die maschinelle Übersetzung von Englisch nach Vietnamesisch. MTet besteht aus 4,2 Mio. hochwertigen Trainings-Satzpaaren und einem mehrdomänenorientierten Testset, das durch die vietnamesische Forschungsgemeinschaft verfeinert wurde. In Kombination mit früheren Arbeiten zur Englisch-Vietnamesischen Übersetzung erweitern wir den bestehenden parallelen Datensatz auf insgesamt 6,2 Mio. Satzpaare. Zudem veröffentlichen wir das erste vortrainierte Modell EnViT5 für die Sprachen Englisch und Vietnamesisch. Unter Verwendung beider Ressourcen erreicht unser Modell signifikant bessere Ergebnisse als die bisher beste State-of-the-Art-Performance, wobei die BLEU-Scores um bis zu 2 Punkte steigen, und gleichzeitig 1,6-mal kleiner ist.