
摘要
以往的多模态机器翻译(Multimodal Machine Translation, MMT)研究通过引入对齐的视觉信息,将传统的双语翻译框架拓展至多模态场景。然而,多模态数据集普遍要求输入包含对齐的三元组信息——即[图像, 源文本, 目标文本],这一严格约束严重制约了MMT技术的发展。尤其在推理阶段,当缺乏与源文本对齐的图像时(如标准神经机器翻译NMT场景),该要求带来显著挑战。为此,本文提出IKD-MMT,一种新型的MMT框架,通过引入反演知识蒸馏(Inversion Knowledge Distillation, IKD)机制,实现无需图像输入的推理能力。具体而言,该框架包含一个多模态特征生成器与一个知识蒸馏模块,能够仅以源文本为输入,直接生成多模态特征表示。尽管已有少数研究尝试探索无需图像的机器翻译推理路径,但其性能仍难以与依赖图像的翻译方法相媲美。在实验中,我们首次证明,所提方法能够在不依赖图像的前提下,全面达到甚至超越几乎所有依赖图像的现有框架,在广泛使用的Multi30k基准测试上取得了当前最优(SOTA)性能。相关代码与数据已公开,详见:https://github.com/pengr/IKD-mmt/tree/master。