
摘要
手语到口语翻译面临的一个主要挑战是缺乏平行语料库。尽管近期研究在RWTH-PHOENIX-Weather 2014T数据集上取得了令人鼓舞的结果——该数据集包含超过八千对德语手语与德语的平行句子——但从神经机器翻译的角度来看,这一数据集规模仍然非常有限。为了提升在小规模数据集上训练模型的性能,可采用迁移学习方法。尽管此前已有研究将迁移学习应用于手语翻译中的特征提取,但据我们所知,预训练语言模型尚未在此任务中得到系统性探索。本文采用预训练的BERT-base和mBART-50模型对“手语视频到口语文本”翻译模型进行初始化。为缓解过拟合问题,我们引入了冻结预训练Transformer的技术:在训练过程中冻结大部分参数。实验结果表明,使用预训练BERT模型的模型相比从零开始训练的基线模型,BLEU-4得分提升了1至2分。研究结果表明,预训练语言模型能够有效提升手语翻译的性能,且BERT中的自注意力机制在零样本(zero-shot)条件下可成功迁移到手语翻译模型的编码器与解码器中。