7 天前
期望最大化对比学习用于紧凑的视频-语言表征
Peng Jin, Jinfa Huang, Fenglin Liu, Xian Wu, Shen Ge, Guoli Song, David A. Clifton, Jie Chen

摘要
大多数视频与语言表征学习方法采用对比学习(如CLIP),通过文本-视频对之间的语义相似性,将视频和文本特征映射到一个共享的潜在空间中。然而,这类学习得到的共享潜在空间往往并非最优,视觉与文本表征之间的模态差异也难以完全消除。本文提出了一种期望最大化对比学习方法(Expectation-Maximization Contrastive Learning, EMCL),以学习更加紧凑的视频-语言表征。具体而言,我们利用期望最大化(Expectation-Maximization)算法,为潜在空间寻找一组紧凑的基向量,使得特征能够以这些基向量的线性组合形式被简洁地表示。这种视频-语言表征的特征分解有效降低了潜在空间的秩,从而提升了语义表达能力。在三个基准文本-视频检索数据集上的大量实验表明,所提出的EMCL方法能够学习到比以往方法更具判别性的视频-语言表征,并在所有评估指标上显著超越现有最先进方法。更令人鼓舞的是,该方法可作为联合训练层或即插即用的推理模块,无需额外训练即可提升现有方法的性能,因而能够方便地集成到任何现有框架中。