17 天前
无语言被遗忘:以人为中心的机器翻译规模化
NLLB Team, Marta R. Costa-jussà, James Cross, Onur Çelebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi, Janice Lam, Daniel Licht, Jean Maillard, Anna Sun, Skyler Wang, Guillaume Wenzek, Al Youngblood, Bapi Akula, Loic Barrault, Gabriel Mejia Gonzalez, Prangthip Hansanti, John Hoffman, Semarley Jarrett, Kaushik Ram Sadagopan, Dirk Rowe, Shannon Spruit, Chau Tran, Pierre Andrews, Necip Fazil Ayan, Shruti Bhosale, Sergey Edunov, Angela Fan, Cynthia Gao, Vedanuj Goswami, Francisco Guzmán, Philipp Koehn, Alexandre Mourachko, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Jeff Wang

摘要
为实现全球范围内消除语言障碍的愿景,机器翻译已成为当今人工智能研究的核心方向之一。然而,现有努力主要集中在少数高资源语言上,导致绝大多数低资源语言被忽视。如何突破200种语言的翻译瓶颈,在保障翻译质量与安全性的前提下,同时兼顾伦理考量,成为亟待解决的关键问题。在《无语言被遗落》(No Language Left Behind)这一研究中,我们迎难而上。首先,通过与母语者开展探索性访谈,深入理解低资源语言翻译支持的迫切需求;随后,构建了专门针对低资源语言的数据集与模型,旨在缩小低资源语言与高资源语言之间的性能差距。具体而言,我们提出了一种基于稀疏门控专家混合模型(Sparsely Gated Mixture of Experts)的条件计算架构,并利用专为低资源语言设计的新型高效数据挖掘技术获取训练数据。为应对在数千个翻译任务上训练时可能出现的过拟合问题,我们引入了多项架构与训练策略的改进。尤为重要的是,我们采用人类翻译的基准测试集Flores-200,对超过40,000种不同的翻译方向进行了系统评估,并结合一项覆盖Flores-200中所有语言的新型毒性检测基准,全面评估翻译结果的安全性。实验结果表明,我们的模型相较此前的最先进水平,BLEU得分提升了44%,为构建通用翻译系统奠定了重要基础。最后,我们已将本研究中所有成果开源,相关代码与资源可访问:https://github.com/facebookresearch/fairseq/tree/nllb。