2 个月前
英语中等任务训练也能提高零样本跨语言迁移能力
Jason Phang; Iacer Calixto; Phu Mon Htut; Yada Pruksachatkun; Haokun Liu; Clara Vania; Katharina Kann; Samuel R. Bowman

摘要
中间任务训练——在针对目标任务进行微调之前,先对预训练模型进行中间任务的微调——通常在单语英语环境中显著提高模型在语言理解任务上的性能。我们研究了在非英语目标任务中,英语中间任务训练是否仍然有益。通过九个中间语言理解任务,我们在XTREME基准上评估了零样本跨语言设置中的中间任务迁移效果。我们发现在BUCC和Tatoeba句子检索任务中,中间训练带来了显著的改进,在问答目标任务中则有适度的提升。MNLI、SQuAD和HellaSwag作为中间任务取得了最佳的整体结果,而多任务中间训练则提供了较小的额外改进。使用每个目标任务的最佳中间任务模型,我们在XTREME基准上比XLM-R大模型提高了5.4分,截至2020年6月达到了当时最先进的水平。我们还探讨了在中间任务训练期间继续进行多语言掩码语言模型(MLM)训练以及使用机器翻译的中间任务数据,但这两者均未能始终优于仅执行英语中间任务训练的方法。