MARLIN : Autoencodeur masqué pour l'apprentissage de la représentation vidéo faciale

Ce papier propose une approche auto-supervisée pour apprendre des représentations universelles du visage à partir de vidéos, capables de se transférer à diverses tâches d'analyse faciale telles que la reconnaissance d'attributs faciaux (FAR), la reconnaissance d'expressions faciales (FER), la détection de DeepFakes (DFD) et la synchronisation labiale (LS). Notre cadre proposé, nommé MARLIN, est un autoencodeur masqué de vidéos faciales qui apprend des plongements faciaux très robustes et génériques à partir de vidéos faciales non annotées largement disponibles sur le web. En tant que tâche auxiliaire difficile, MARLIN reconstruit les détails spatio-temporels du visage à partir des régions faciales densément masquées, qui comprennent principalement les yeux, le nez, la bouche, les lèvres et la peau, afin de capturer les aspects locaux et globaux qui contribuent ensuite à l'encodage de caractéristiques génériques et transposables. À travers une variété d'expériences sur des tâches en aval diversifiées, nous démontrons que MARLIN est un excellent encodeur de vidéos faciales ainsi qu'un extracteur de caractéristiques, performant constamment bien sur diverses tâches en aval, y compris FAR (gain de 1,13 % par rapport au benchmark supervisé), FER (gain de 2,64 % par rapport au benchmark non supervisé), DFD (gain de 1,86 % par rapport au benchmark non supervisé), LS (gain de 29,36 % pour la distance Fréchet Inception) et même dans un régime à faible quantité de données. Notre code et nos modèles sont disponibles à l'adresse suivante : https://github.com/ControlNet/MARLIN .