11 天前

视觉-语言基础模型中的等变相似性

Tan Wang, Kevin Lin, Linjie Li, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang
视觉-语言基础模型中的等变相似性
摘要

本研究探讨了视觉-语言基础模型(VLMs)中的等变性(equivariance)概念,重点关注一种多模态相似性函数。该函数不仅是模型的主要训练目标,更是支持下游任务的核心能力。与现有图像-文本相似性目标仅将匹配对分类为相似、非匹配对为不相似不同,等变性还要求相似性能够忠实反映语义变化的程度。这一特性使VLMs在面对细微且未见过的多模态组合时具备更强的泛化能力。然而,建模等变性面临挑战,因为语义变化的真实标签难以获取。例如,对于一个描述“狗”的图像-文本对,当图像中的像素从“狗”变为“猫”时,其相似性应如何变化,这一变化程度并不明确。为此,我们提出EqSim——一种可高效计算的正则化损失函数,仅需任意两个匹配的训练样本即可计算,并可轻松集成至现有的图像-文本检索微调流程中。同时,为更深入地诊断VLMs的等变性表现,我们构建了一个新的挑战性基准测试集EqBen。相较于现有评估数据集,EqBen是首个聚焦于“视觉最小变化”(visual-minimal change)的基准。大量实验结果表明,当前VLMs普遍缺乏等变性,同时验证了EqSim的有效性。代码已开源,地址为:https://github.com/Wangt-CN/EqBen。

视觉-语言基础模型中的等变相似性 | 最新论文 | HyperAI超神经