
摘要
以往用于视觉到语言生成任务的模型通常在各自领域中分别预训练视觉编码器与语言生成器,随后在目标任务上联合微调。然而,这种直接迁移的方法可能面临视觉信息的精确性与语言流畅性之间的不协调问题,因为二者往往基于独立的视觉与文本大规模语料库分别训练,缺乏共同的语义对齐基础。在本研究中,我们提出,为应对诸如视觉叙事等具有挑战性的下游任务,应在预训练与微调之间引入一个过渡性适配阶段,以协调视觉编码器与语言模型之间的能力。为此,我们提出一种名为“预训练模型的过渡适配”(Transitional Adaptation of Pretrained Model, TAPM)的新方法,该方法通过仅基于视觉输入的简化对齐任务,实现多模态模块间的相互适配,无需依赖文本标签。大量实验表明,该适配步骤显著提升了多种语言模型在序列化视频与图像字幕生成任务中的性能。在LSMDC 2019多句描述任务和VIST图像叙事任务中,我们的方法在语言评估指标与人工评价方面均取得了新的最先进水平。实验结果进一步揭示,这种字幕质量的提升并不依赖于特定语言模型的选择,具有良好的通用性。