17 天前
DiffusionRet:基于扩散模型的生成式文本-视频检索
Peng Jin, Hao Li, Zesen Cheng, Kehan Li, Xiangyang Ji, Chang Liu, Li Yuan, Jie Chen

摘要
现有的文本-视频检索方法本质上属于判别式模型,其核心目标是最大化条件概率,即 $ p(\text{候选项}|\text{查询}) $。尽管这一范式实现简单,但其忽略了查询数据本身的潜在分布 $ p(\text{查询}) $,导致难以有效识别分布外(out-of-distribution)的数据。为克服这一局限,本文创造性地从生成式视角出发,将文本与视频之间的关联建模为它们的联合概率分布 $ p(\text{候选项}, \text{查询}) $。为此,我们提出了一种基于扩散模型的文本-视频检索框架——DiffusionRet,该框架将检索任务建模为从噪声中逐步生成联合分布的过程。在训练过程中,DiffusionRet 同时从生成与判别两个角度进行优化:生成器通过生成损失进行优化,而特征提取器则通过对比损失进行训练。这种设计巧妙地融合了生成模型与判别模型的优势。在五个广泛使用的文本-视频检索基准数据集(包括 MSRVTT、LSMDC、MSVD、ActivityNet Captions 和 DiDeMo)上的大量实验表明,该方法取得了优异的性能。更令人振奋的是,无需任何修改,DiffusionRet 在分布外检索场景下同样表现出色。我们认为,本工作为相关领域提供了重要的理论启示。代码已开源,地址为:https://github.com/jpthu17/DiffusionRet。