HyperAIHyperAI

Command Palette

Search for a command to run...

期望最大化对比学习用于紧凑的视频-语言表征

Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David A. Clifton Jie Chen

摘要

大多数视频与语言表征学习方法采用对比学习(如CLIP),通过文本-视频对之间的语义相似性,将视频和文本特征映射到一个共享的潜在空间中。然而,这类学习得到的共享潜在空间往往并非最优,视觉与文本表征之间的模态差异也难以完全消除。本文提出了一种期望最大化对比学习方法(Expectation-Maximization Contrastive Learning, EMCL),以学习更加紧凑的视频-语言表征。具体而言,我们利用期望最大化(Expectation-Maximization)算法,为潜在空间寻找一组紧凑的基向量,使得特征能够以这些基向量的线性组合形式被简洁地表示。这种视频-语言表征的特征分解有效降低了潜在空间的秩,从而提升了语义表达能力。在三个基准文本-视频检索数据集上的大量实验表明,所提出的EMCL方法能够学习到比以往方法更具判别性的视频-语言表征,并在所有评估指标上显著超越现有最先进方法。更令人鼓舞的是,该方法可作为联合训练层或即插即用的推理模块,无需额外训练即可提升现有方法的性能,因而能够方便地集成到任何现有框架中。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供