
摘要
由于isiZulu等低资源语言的数据集和文本资源有限,迫切需要利用预训练模型的知识来改进低资源机器翻译。此外,缺乏处理形态丰富语言复杂性的技术进一步加剧了翻译模型发展的不平等,导致许多广泛使用的非洲语言被远远落在后面。本研究探讨了在英语-isiZulu翻译框架中迁移学习的潜在优势。结果表明,从密切相关语言进行迁移学习可以显著提升低资源翻译模型的性能,从而为未来的低资源翻译提供了一种关键策略。我们收集了来自8个不同语言语料库的结果,包括一个多语种语料库,并发现isiXhosa-isiZulu的表现优于所有其他语言,在测试集上的BLEU得分为8.56,比多语种语料库预训练模型高出2.73分。我们还提出了一种新的系数——Nasir的地理距离系数(NGDC),该系数为选择预训练模型的语言提供了简便的方法。NGDC也指出,isiXhosa应作为预训练模型的选择语言。