6 个月前

摘要

本文提出了一种基于视频中心化Transformer的新型视频人脸聚类方法。以往的研究通常采用对比学习来学习帧级特征表示，并通过平均池化在时间维度上聚合特征。然而，这种方法难以充分捕捉视频中复杂的动态变化。此外，尽管基于视频的对比学习近年来取得了显著进展，但鲜有研究致力于学习一种自监督、有利于视频人脸聚类任务的聚类友好型特征表示。为克服上述局限性，本文提出一种直接学习视频级表示的Transformer模型，能够更好地反映视频中人脸随时间变化的动态特性；同时，我们设计了一种视频中心化的自监督学习框架，用于训练该Transformer模型。此外，本文首次探索了第一人称视角视频中的人脸聚类问题，这一领域虽迅速兴起，但在现有相关研究中尚未得到系统关注。为此，我们构建并发布了首个大规模第一人称视角视频人脸聚类数据集——EasyCom-Clustering。我们在广泛使用的Big Bang Theory（BBT）数据集以及新发布的EasyCom-Clustering数据集上对所提方法进行了评估。实验结果表明，本文提出的视频中心化Transformer在两个基准测试中均超越了所有先前的最先进方法，展现出对人脸视频的自注意力理解能力。

源 PDF