2 个月前

英语中等任务训练也能提高零样本跨语言迁移能力

Jason Phang; Iacer Calixto; Phu Mon Htut; Yada Pruksachatkun; Haokun Liu; Clara Vania; Katharina Kann; Samuel R. Bowman

摘要

中间任务训练——在针对目标任务进行微调之前，先对预训练模型进行中间任务的微调——通常在单语英语环境中显著提高模型在语言理解任务上的性能。我们研究了在非英语目标任务中，英语中间任务训练是否仍然有益。通过九个中间语言理解任务，我们在XTREME基准上评估了零样本跨语言设置中的中间任务迁移效果。我们发现在BUCC和Tatoeba句子检索任务中，中间训练带来了显著的改进，在问答目标任务中则有适度的提升。MNLI、SQuAD和HellaSwag作为中间任务取得了最佳的整体结果，而多任务中间训练则提供了较小的额外改进。使用每个目标任务的最佳中间任务模型，我们在XTREME基准上比XLM-R大模型提高了5.4分，截至2020年6月达到了当时最先进的水平。我们还探讨了在中间任务训练期间继续进行多语言掩码语言模型（MLM）训练以及使用机器翻译的中间任务数据，但这两者均未能始终优于仅执行英语中间任务训练的方法。