11 天前

自监督视频中心化Transformer用于视频人脸识别聚类

Yujiang Wang, Mingzhi Dong, Jie Shen, Yiming Luo, Yiming Lin, Pingchuan Ma, Stavros Petridis, Maja Pantic
自监督视频中心化Transformer用于视频人脸识别聚类
摘要

本文提出了一种基于视频中心化Transformer的新型视频人脸聚类方法。以往的研究通常采用对比学习来学习帧级特征表示,并通过平均池化在时间维度上聚合特征。然而,这种方法难以充分捕捉视频中复杂的动态变化。此外,尽管基于视频的对比学习近年来取得了显著进展,但鲜有研究致力于学习一种自监督、有利于视频人脸聚类任务的聚类友好型特征表示。为克服上述局限性,本文提出一种直接学习视频级表示的Transformer模型,能够更好地反映视频中人脸随时间变化的动态特性;同时,我们设计了一种视频中心化的自监督学习框架,用于训练该Transformer模型。此外,本文首次探索了第一人称视角视频中的人脸聚类问题,这一领域虽迅速兴起,但在现有相关研究中尚未得到系统关注。为此,我们构建并发布了首个大规模第一人称视角视频人脸聚类数据集——EasyCom-Clustering。我们在广泛使用的Big Bang Theory(BBT)数据集以及新发布的EasyCom-Clustering数据集上对所提方法进行了评估。实验结果表明,本文提出的视频中心化Transformer在两个基准测试中均超越了所有先前的最先进方法,展现出对人脸视频的自注意力理解能力。

自监督视频中心化Transformer用于视频人脸识别聚类 | 最新论文 | HyperAI超神经