11 天前

用于多模态机器翻译的动态上下文引导胶囊网络

Huan Lin, Fandong Meng, Jinsong Su, Yongjing Yin, Zhengyuan Yang, Yubin Ge, Jie Zhou, Jiebo Luo
用于多模态机器翻译的动态上下文引导胶囊网络
摘要

多模态机器翻译(Multimodal Machine Translation, MMT)主要通过引入视觉特征来增强纯文本翻译性能,近年来受到计算机视觉与自然语言处理领域广泛关注。当前大多数MMT模型依赖注意力机制、全局上下文建模或跨模态联合表示学习来利用视觉信息。然而,注意力机制在模态间缺乏充分的语义交互,而其他两种方法则提供固定的视觉上下文,难以适应生成翻译过程中所观测到的动态变化。为解决上述问题,本文提出一种新颖的动态上下文引导胶囊网络(Dynamic Context-guided Capsule Network, DCCN)用于多模态机器翻译。具体而言,在解码的每个时间步,我们首先采用传统的源-目标注意力机制生成特定时间步的源端上下文向量;随后,DCCN以该向量为输入,通过一种上下文引导的动态路由机制,迭代提取与当前语境相关的视觉特征。特别地,我们采用全局与局部区域视觉特征联合表示输入图像,并引入两个并行的DCCN模块,分别建模不同粒度下的视觉特征所对应的多模态上下文向量。最终,融合得到两个多模态上下文向量,并将其注入解码器以预测目标词。在英德、英法翻译任务的Multi30K数据集上的实验结果表明,所提DCCN方法显著优于现有方法。相关代码已开源,地址为:https://github.com/DeepLearnXMU/MM-DCCN。

用于多模态机器翻译的动态上下文引导胶囊网络 | 最新论文 | HyperAI超神经