7 天前

期望最大化对比学习用于紧凑的视频-语言表征

Peng Jin, Jinfa Huang, Fenglin Liu, Xian Wu, Shen Ge, Guoli Song, David A. Clifton, Jie Chen

摘要

大多数视频与语言表征学习方法采用对比学习（如CLIP），通过文本-视频对之间的语义相似性，将视频和文本特征映射到一个共享的潜在空间中。然而，这类学习得到的共享潜在空间往往并非最优，视觉与文本表征之间的模态差异也难以完全消除。本文提出了一种期望最大化对比学习方法（Expectation-Maximization Contrastive Learning, EMCL），以学习更加紧凑的视频-语言表征。具体而言，我们利用期望最大化（Expectation-Maximization）算法，为潜在空间寻找一组紧凑的基向量，使得特征能够以这些基向量的线性组合形式被简洁地表示。这种视频-语言表征的特征分解有效降低了潜在空间的秩，从而提升了语义表达能力。在三个基准文本-视频检索数据集上的大量实验表明，所提出的EMCL方法能够学习到比以往方法更具判别性的视频-语言表征，并在所有评估指标上显著超越现有最先进方法。更令人鼓舞的是，该方法可作为联合训练层或即插即用的推理模块，无需额外训练即可提升现有方法的性能，因而能够方便地集成到任何现有框架中。