2 个月前

自监督视频相似性学习

Giorgos Kordopatis-Zilos; Giorgos Tolias; Christos Tzelepis; Ioannis Kompatsiaris; Ioannis Patras; Symeon Papadopoulos
自监督视频相似性学习
摘要

我们介绍了一种名为S$^2$VS的视频相似度学习方法,该方法采用了自监督学习(Self-Supervised Learning, SSL)。自监督学习通常用于训练深度模型以完成代理任务,从而在微调后对目标任务具有强大的迁移能力。然而,在本研究中,与以往的工作不同,自监督学习被用来同时执行视频相似度学习以及多个检索和检测任务,而无需使用标注数据。这是通过实例判别(instance-discrimination)结合任务定制的数据增强技术和广泛使用的InfoNCE损失函数来实现的,同时还引入了一个额外的损失函数,该损失函数联合操作于自相似性和难负样本相似性。我们在定义视频相关性的不同粒度的任务上对我们的方法进行了基准测试,这些任务涵盖了从视频副本到描述相同事件或场景的视频。我们训练了一个单一的通用模型,该模型在所有任务上均达到了最先进的性能,超过了之前使用标注数据的方法。代码和预训练模型已公开发布在以下地址:https://github.com/gkordo/s2vs