16 天前
通过视觉与语音实现的多模态机器翻译
Umut Sulubacak, Ozan Caglayan, Stig-Arne Grönroos, Aku Rouhe, Desmond Elliott, Lucia Specia, Jörg Tiedemann

摘要
多模态机器翻译旨在从多种模态中提取信息,其基本假设是:额外的模态能够为输入数据提供有价值的互补视角。该领域中最突出的任务包括语音翻译(spoken language translation)、图像引导翻译(image-guided translation)以及视频引导翻译(video-guided translation),分别利用音频和视觉模态。这些任务与单模态任务——如语音识别(speech recognition)、图像字幕生成(image captioning)和视频字幕生成(video captioning)——相区别,其核心在于模型需将输入内容翻译为目标语言,而非仅生成同语言的描述。本文综述了上述任务的主要数据资源、围绕这些任务开展的评估竞赛、端到端方法与流水线方法的最新进展,以及性能评估所面临的挑战。最后,文章探讨了未来研究的若干方向:亟需构建更为丰富且具有挑战性的数据集,开展针对模型性能的精细化评估,并在输入与输出空间中进一步引入多模态特性。