Détection de la manipulation du visage dans les vidéos par un ensemble de CNNs

Ces dernières années, plusieurs techniques de manipulation faciale dans les vidéos ont été développées avec succès et rendues accessibles au grand public (par exemple, FaceSwap, deepfake, etc.). Ces méthodes permettent à quiconque d'éditer facilement des visages dans des séquences vidéo avec des résultats incroyablement réalistes et un effort minimal. Bien que ces outils soient utiles dans de nombreux domaines, leur utilisation malveillante peut avoir un impact significativement négatif sur la société (par exemple, la propagation de fausses nouvelles, le cyberharcèlement par le biais de faux contenus de vengeance pornographique). La capacité de détecter objectivement si un visage a été manipulé dans une séquence vidéo est donc une tâche d'une importance capitale. Dans cet article, nous abordons le problème de la détection de manipulation faciale dans les séquences vidéo en ciblant les techniques modernes de manipulation faciale. En particulier, nous étudions l'agrégation de différents modèles de réseaux neuronaux convolutifs (CNN) entraînés. Dans la solution proposée, différents modèles sont obtenus à partir d'un réseau de base (à savoir, EfficientNetB4) en utilisant deux concepts différents : (i) les couches d'attention ; (ii) l'entraînement siamois. Nous montrons que la combinaison de ces réseaux conduit à des résultats prometteurs pour la détection de manipulation faciale sur deux jeux de données publiquement disponibles comprenant plus de 119 000 vidéos.