18 天前

通过视觉-语言知识蒸馏在CLIP上实现多模态生成

{Anonymous}
通过视觉-语言知识蒸馏在CLIP上实现多模态生成
摘要

近期,基于双流架构(如CLIP)的大规模视觉-语言预训练(VLP)模型,利用海量图像-文本对数据,在多种多模态对齐任务中展现出显著优势。然而,由于文本编码器能力较弱,此类模型在生成式多模态任务中表现受限。为解决这一问题,我们提出通过视觉-语言知识蒸馏(VLKD)技术,将预训练语言模型(PLM)引入双流VLP架构,从而增强模型的多模态生成能力。相较于从零开始的预训练,VLKD在数据和计算资源方面均表现出极高的效率。实验结果表明,所提模型在多模态生成任务中具备强大的零样本性能,例如在开放式视觉问答(VQA)和图像描述生成任务中表现优异。例如,在VQA 2.0数据集上,该模型实现了39.7%的零样本准确率,超越此前最先进的零样本模型,且参数量仅为后者的1/14。此外,经过VLKD后,原始PLM的文本处理能力得以完整保留,使本模型在多模态与单模态任务中均具备高度通用性。