11 天前

多模态自适应蒸馏:利用单模态编码器进行视觉-语言任务

Zhecan Wang, Noel Codella, Yen-Chun Chen, Luowei Zhou, Xiyang Dai, Bin Xiao, Jianwei Yang, Haoxuan You, Kai-Wei Chang, Shih-fu Chang, Lu Yuan
多模态自适应蒸馏:利用单模态编码器进行视觉-语言任务
摘要

用于视觉-语言(Vision-Language, VL)任务的跨模态编码器通常依赖于精心构建的视觉-语言数据集进行预训练。尽管这些数据集规模可达千万级别,但其人工标注成本极高,难以进一步扩展。相比之下,单模态编码器采用更简单的标注方式,成本较低,已实现从数亿到数十亿样本的预训练规模,因此在众多下游任务中取得了当前最优(SOTA)性能。然而,当应用于VL任务时,单模态编码器仍面临诸多挑战:其预训练数据并非为跨模态架构设计,且在微调过程中需要大量计算资源;此外,单模态架构缺乏跨模态交互能力,而这种交互已被证明对VL任务具有显著优势。因此,如何有效利用预训练的单模态编码器服务于VL任务,仍是当前研究的热点。在本工作中,我们提出一种方法,旨在利用预训练的单模态视觉与文本编码器来提升VL任务性能,该方法在不增加计算复杂度的前提下,可增强现有VL模型的能力。具体而言,我们提出多模态自适应蒸馏(Multimodal Adaptive Distillation, MAD),通过自适应地从预训练的单模态编码器中提取有用知识,并将其迁移至跨模态VL编码器中。其次,为更精细地评估不同条件下VL任务的表现,我们引入了一套综合评价协议,涵盖视觉常识推理(Visual Commonsense Reasoning, VCR)、视觉蕴含判断(SNLI-VE)以及视觉问答(Visual Question Answering, VQA)等多个任务,并在多种数据约束和领域偏移场景下进行测试。实验结果表明,MAD在低样本量(low-shot)、领域偏移(domain-shifted)以及全监督(fully-supervised)等多种条件下,均在VCR、SNLI-VE和VQA任务上实现了稳定提升,尤其在VCR任务上,其性能超越了其他基于图像-文本数据预训练的单一模型,达到当前最优水平。此外,MAD在性能上也优于近期利用CLIP预训练视觉编码器的同类方法。相关代码将对外公开。

多模态自适应蒸馏:利用单模态编码器进行视觉-语言任务 | 最新论文 | HyperAI超神经