2 个月前

ViSiL:细粒度时空视频相似性学习

Giorgos Kordopatis-Zilos; Symeon Papadopoulos; Ioannis Patras; Ioannis Kompatsiaris
ViSiL:细粒度时空视频相似性学习
摘要

本文介绍了一种名为ViSiL(Video Similarity Learning)的视频相似度学习架构,该架构考虑了视频对之间的细粒度时空关系——这些关系在以往的视频检索方法中通常会丢失,因为这些方法在进行相似度估计之前,会将整个帧甚至整段视频嵌入到一个向量描述符中。相比之下,我们基于卷积神经网络(CNN)的方法训练用于从精细的帧间相似度矩阵计算视频间的相似度,从而同时考虑帧内和帧间的关系。在所提出的方法中,通过应用张量点积(Tensor Dot, TD)和查姆费尔相似度(Chamfer Similarity, CS)来估计区域CNN帧特征之间的两两帧相似度——这避免了在帧间相似度计算前进行特征聚合。随后,所有视频帧之间的相似度矩阵被输入到一个四层的CNN中,并通过查姆费尔相似度(CS)汇总为一个视频间的相似度分数——这避免了在视频间相似度计算前进行特征聚合,并捕捉到了匹配帧序列之间的时序相似模式。我们使用三元组损失方案训练所提出的网络,并在四个不同的视频检索问题上对其进行了评估,涉及五个公开基准数据集,在这些数据集上展示了相对于现有技术的巨大改进。ViSiL的实现代码已公开提供。