17 天前
MTet:面向英语与越南语的多领域翻译
Chinh Ngo, Trieu H. Trinh, Long Phan, Hieu Tran, Tai Dang, Hieu Nguyen, Minh Nguyen, Minh-Thang Luong

摘要
我们提出了MTet,这是目前公开可用的规模最大、质量最高的英越语平行语料库。MTet包含420万条高质量的训练语句对,以及由越南研究社区精心优化的多领域测试集。结合此前在英越语翻译领域的研究成果,我们已将现有平行语料库规模扩展至620万句对。此外,我们还发布了首个针对英语与越南语的预训练模型EnViT5。结合这两项资源,我们的模型在翻译BLEU得分上相较以往最先进方法最高提升达2分,同时模型体积仅为前者的1.6倍,显著更小。