MINTIME : Détection des deepfakes vidéo à identité multiple et invariante à la taille

Dans cet article, nous introduisons MINTIME, une méthode de détection des deepfakes vidéo qui capture les anomalies spatiales et temporelles tout en gérant les cas où plusieurs personnes apparaissent dans une même vidéo ainsi que les variations de taille des visages. Les approches précédentes négligent généralement ces informations, soit en utilisant des schémas simples d’agrégation a posteriori (par exemple, une moyenne ou une opération de maximum), soit en ne considérant qu’une seule identité lors de l’inférence (généralement celle de plus grande taille). À l’inverse, la méthode proposée repose sur un modèle Spatio-Temporal TimeSformer combiné à un squelette basé sur un réseau de neurones convolutionnel (CNN) afin de capturer les anomalies spatio-temporelles à partir des séquences faciales de plusieurs identités présentes dans une vidéo. Ceci est réalisé grâce à un mécanisme d’attention consciente de l’identité, qui traite chaque séquence faciale de manière indépendante via une opération de masquage et facilite l’agrégation au niveau de la vidéo. En outre, deux nouvelles embeddings sont introduits : (i) l’embedding positionnel temporellement cohérent, qui encode les informations temporelles de chaque séquence faciale, et (ii) l’embedding de taille, qui encode la taille des visages en tant que rapport par rapport à la taille de la trame vidéo. Ces extensions permettent à notre système de s’adapter particulièrement bien dans des conditions réelles en apprenant efficacement à agréger les informations provenant de plusieurs identités, un aspect généralement ignoré par les méthodes existantes. MINTIME atteint des performances de pointe sur le jeu de données ForgeryNet, avec une amélioration allant jusqu’à 14 % en AUC pour les vidéos contenant plusieurs personnes, et démontre une capacité de généralisation importante dans des scénarios de détection croisée (cross-forgery) et de transfert entre jeux de données (cross-dataset). Le code source est disponible publiquement à l’adresse suivante : https://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deepfake-Detection.