9 天前
视频-文本作为游戏参与者:用于跨模态表示学习的分层Banzhaf交互
Peng Jin, Jinfa Huang, Pengfei Xiong, Shangxuan Tian, Chang Liu, Xiangyang Ji, Li Yuan, Jie Chen

摘要
基于对比学习的视频-语言表征学习方法(如CLIP)已取得卓越性能,其核心思想在于对预定义的视频-文本配对进行语义层面的交互建模。然而,要清晰揭示这种粗粒度的全局交互机制并进一步推进,必须面对细粒度跨模态学习中极具挑战性的“壳层突破”式交互问题。本文创造性地将视频与文本建模为多变量合作博弈中的参与者,借助合作博弈论,灵活应对细粒度语义交互过程中所面临的不确定性,实现多样化的粒度层级、灵活的组合方式以及模糊的交互强度。具体而言,本文提出层次化班扎夫交互(Hierarchical Banzhaf Interaction, HBI),用于量化视频帧与文本词之间可能的对应关系,从而实现敏感且可解释的跨模态对比学习。为高效实现多个视频帧与多个文本词之间的合作博弈,所提出的方法首先对原始视频帧(或文本词)进行聚类,并计算合并后标记(tokens)之间的班扎夫交互值。通过堆叠多个标记合并模块,模型能够在不同语义层级上实现多层次的合作博弈。在广泛使用的文本-视频检索与视频问答基准测试中,HBI方法均展现出优越的性能,充分验证了其有效性。更令人鼓舞的是,该方法还可作为可视化工具,有效促进对跨模态交互机制的理解,具有深远的学术影响。项目主页详见:https://jpthu17.github.io/HBI/。