Transformateur vidéo-centré auto-supervisé pour le regroupement de visages vidéo

Cet article présente une nouvelle méthode de regroupement facial dans les vidéos en utilisant un transformateur centré sur la vidéo. Les travaux antérieurs ont souvent recouru à l’apprentissage contrastif pour apprendre des représentations au niveau des trames, puis à un pooling moyen pour agréger les caractéristiques le long de la dimension temporelle. Cette approche peut ne pas capturer pleinement la dynamique complexe des vidéos. En outre, malgré les progrès récents dans l’apprentissage contrastif basé sur les vidéos, peu d’études se sont attelées à apprendre une représentation faciale auto-supervisée, adaptée au regroupement, qui profite réellement à la tâche de regroupement facial dans les vidéos. Pour surmonter ces limitations, notre méthode utilise un transformateur afin d’apprendre directement des représentations au niveau de la vidéo, capables de refléter de manière plus fidèle les propriétés variantes dans le temps des visages dans les vidéos, tout en proposant un cadre auto-supervisé centré sur la vidéo pour entraîner le modèle transformateur. Nous explorons également le regroupement facial dans les vidéos égocentriques, un domaine en plein essor qui n’a pas encore été étudié dans les travaux antérieurs sur le regroupement facial. À cet effet, nous présentons et mettons à disposition le premier grand jeu de données de regroupement facial dans des vidéos égocentriques, baptisé EasyCom-Clustering. Nous évaluons notre méthode proposée sur deux jeux de données largement utilisés : le jeu de données Big Bang Theory (BBT) et le nouveau jeu de données EasyCom-Clustering. Les résultats montrent que notre transformateur centré sur la vidéo dépasse toutes les méthodes d’état de l’art précédentes sur ces deux benchmarks, démontrant une compréhension auto-attentive des vidéos faciales.