8 个月前

摘要

本文介绍了一种名为ViSiL（Video Similarity Learning）的视频相似度学习架构，该架构考虑了视频对之间的细粒度时空关系——这些关系在以往的视频检索方法中通常会丢失，因为这些方法在进行相似度估计之前，会将整个帧甚至整段视频嵌入到一个向量描述符中。相比之下，我们基于卷积神经网络（CNN）的方法训练用于从精细的帧间相似度矩阵计算视频间的相似度，从而同时考虑帧内和帧间的关系。在所提出的方法中，通过应用张量点积（Tensor Dot, TD）和查姆费尔相似度（Chamfer Similarity, CS）来估计区域CNN帧特征之间的两两帧相似度——这避免了在帧间相似度计算前进行特征聚合。随后，所有视频帧之间的相似度矩阵被输入到一个四层的CNN中，并通过查姆费尔相似度（CS）汇总为一个视频间的相似度分数——这避免了在视频间相似度计算前进行特征聚合，并捕捉到了匹配帧序列之间的时序相似模式。我们使用三元组损失方案训练所提出的网络，并在四个不同的视频检索问题上对其进行了评估，涉及五个公开基准数据集，在这些数据集上展示了相对于现有技术的巨大改进。ViSiL的实现代码已公开提供。

源 PDF