11 天前

视觉-语言基础模型中的等变相似性

Tan Wang, Kevin Lin, Linjie Li, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang

摘要

本研究探讨了视觉-语言基础模型（VLMs）中的等变性（equivariance）概念，重点关注一种多模态相似性函数。该函数不仅是模型的主要训练目标，更是支持下游任务的核心能力。与现有图像-文本相似性目标仅将匹配对分类为相似、非匹配对为不相似不同，等变性还要求相似性能够忠实反映语义变化的程度。这一特性使VLMs在面对细微且未见过的多模态组合时具备更强的泛化能力。然而，建模等变性面临挑战，因为语义变化的真实标签难以获取。例如，对于一个描述“狗”的图像-文本对，当图像中的像素从“狗”变为“猫”时，其相似性应如何变化，这一变化程度并不明确。为此，我们提出EqSim——一种可高效计算的正则化损失函数，仅需任意两个匹配的训练样本即可计算，并可轻松集成至现有的图像-文本检索微调流程中。同时，为更深入地诊断VLMs的等变性表现，我们构建了一个新的挑战性基准测试集EqBen。相较于现有评估数据集，EqBen是首个聚焦于“视觉最小变化”（visual-minimal change）的基准。大量实验结果表明，当前VLMs普遍缺乏等变性，同时验证了EqSim的有效性。代码已开源，地址为：https://github.com/Wangt-CN/EqBen。