الملخص
نجمع البيانات من مصادر مفتوحة على الإنترنت، ونصنفها إلى فئات مختلفة، كل منها مُوسوم بنمط لغوي محدد. في المجمل، يضمّ مجموعة البيانات 3.3 مليون زوج من النصوص الإنجليزية والفيتنامية، تمتد من جملة واحدة إلى فقرات كاملة. وقد أظهر نموذج تم تدريبه على مجموعة بياناتنا تفوقًا على Google Translate عند اختباره على مجموعة مختارة من مصادر نصوص متنوعة. وحققت نتائجنا في مسابقة IWSLT'15 درجة BLEU بلغت 37.84.