8 个月前

摘要

视频片段检索和高光检测在当前视频内容激增的时代受到了广泛关注，其目标是根据用户特定的查询定位视频中的时刻并评估片段的相关性。由于视频内容在时间上是连续的，因此视频中时间事件之间的边界往往不够清晰。这种边界模糊性使得模型难以学习文本-视频片段对应关系，导致现有方法在预测目标段落时性能不佳。为了解决这一问题，我们提出从去噪生成的角度联合解决这两个任务。此外，通过从粗到细的迭代优化，可以更清晰地定位目标边界。具体而言，我们提出了一种新颖的框架——DiffusionVMR（扩散模型视频片段检索），该框架通过结合扩散模型将两个任务重新定义为统一的条件去噪生成过程。在训练过程中，高斯噪声被添加以破坏真实标签，生成带有噪声的候选输入。模型则被训练来逆转这一加噪过程。在推理阶段，DiffusionVMR 从高斯噪声直接开始，并逐步从噪声中优化出有意义的输出。值得注意的是，所提出的 DiffusionVMR 继承了扩散模型的优点，即在推理过程中可以进行迭代优化结果，从而增强从粗到细的边界过渡。此外，DiffusionVMR 的训练和推理是解耦的，在推理阶段可以使用任意设置而无需与训练阶段保持一致。我们在五个广泛使用的基准数据集（即 QVHighlight、Charades-STA、TACoS、YouTubeHighlights 和 TVSum）上进行了大量实验，涵盖了两个任务（片段检索和/或高光检测），实验结果证明了所提出的 DiffusionVMR 的有效性和灵活性。

源 PDF