
摘要
多模态机器翻译(Multimodal Machine Translation, MMT)通过引入视觉信息来丰富源文本,从而提升翻译质量。近年来,该任务日益受到关注,已有多个相关技术路径被提出。然而,当前该领域仍缺乏高质量的数据集,难以有效评估视觉模态在翻译系统中的实际贡献。本文中,我们以“Volta”为团队名称,参与了WAT 2021多模态翻译任务中从英语到印地语的翻译任务。同时,我们也参加了同一语对的纯文本翻译子任务,该部分采用预训练的多语言序列到序列模型mBART作为基础架构。在多模态翻译方面,我们提出一种方法:通过从图像中提取物体标签(object tags),将视觉信息映射至文本域,从而增强原始文本输入。此外,我们还系统性地对源文本进行退化处理,以评估所提系统的鲁棒性。实验结果表明,在多模态任务的测试集和挑战集上,我们的系统分别取得了44.6和51.6的BLEU得分,验证了所提方法的有效性与实用性。