11 天前

MMRL:面向视觉-语言模型的多模态表示学习

Yuncheng Guo, Xiaodong Gu
MMRL:面向视觉-语言模型的多模态表示学习
摘要

大规模预训练视觉-语言模型(Vision-Language Models, VLMs)已成为跨多种任务进行迁移学习的关键技术。然而,在仅有限的少样本数据下对这些模型进行微调时,常常导致过拟合,从而削弱其在新任务上的表现。为解决这一问题,我们提出了一种新型的多模态表示学习框架(Multi-Modal Representation Learning, MMRL),该框架引入了一个共享的、可学习的、且与模态无关的表示空间。MMRL将空间令牌(space tokens)映射至文本与图像的表示令牌,从而促进更高效的多模态交互。与以往仅优化类别令牌(class token)特征的方法不同,MMRL在编码器的高层引入了表示令牌(representation tokens),这些高层特征更突出数据集特异性,同时在低层保留了通用知识。在训练过程中,表示令牌与类别特征均被优化,并通过可训练的投影层作用于表示令牌,而类别令牌的投影层则保持冻结,以保留预训练阶段所获得的知识。此外,引入了一项正则化项,用于将类别特征与文本特征对齐至冻结VLM的零样本(zero-shot)特征,从而有效保护模型的泛化能力。在推理阶段,采用解耦策略:对于基础类别(base classes),同时利用表示特征与类别特征;而对于新类别(novel tasks),仅使用保留更强泛化能力的类别特征。在15个不同数据集上的大量实验表明,MMRL显著优于当前最先进的方法,在任务特定适应性与泛化能力之间实现了更优的平衡。相关代码已开源,地址为:https://github.com/yunncheng/MMRL。

MMRL:面向视觉-语言模型的多模态表示学习 | 最新论文 | HyperAI超神经