6 个月前

摘要

基于对比学习的视频-语言表征学习方法（如CLIP）已取得卓越性能，其核心思想在于对预定义的视频-文本配对进行语义层面的交互建模。然而，要清晰揭示这种粗粒度的全局交互机制并进一步推进，必须面对细粒度跨模态学习中极具挑战性的“壳层突破”式交互问题。本文创造性地将视频与文本建模为多变量合作博弈中的参与者，借助合作博弈论，灵活应对细粒度语义交互过程中所面临的不确定性，实现多样化的粒度层级、灵活的组合方式以及模糊的交互强度。具体而言，本文提出层次化班扎夫交互（Hierarchical Banzhaf Interaction, HBI），用于量化视频帧与文本词之间可能的对应关系，从而实现敏感且可解释的跨模态对比学习。为高效实现多个视频帧与多个文本词之间的合作博弈，所提出的方法首先对原始视频帧（或文本词）进行聚类，并计算合并后标记（tokens）之间的班扎夫交互值。通过堆叠多个标记合并模块，模型能够在不同语义层级上实现多层次的合作博弈。在广泛使用的文本-视频检索与视频问答基准测试中，HBI方法均展现出优越的性能，充分验证了其有效性。更令人鼓舞的是，该方法还可作为可视化工具，有效促进对跨模态交互机制的理解，具有深远的学术影响。项目主页详见：https://jpthu17.github.io/HBI/。

源 PDF