Vraiment ? Un ensemble de données deepfake audiovisuel piloté par le contenu et une méthode multimodale pour la localisation temporelle de la falsification

En raison de son fort impact sociétal, la détection des deepfakes attire une attention croissante au sein de la communauté de vision par ordinateur. La plupart des méthodes actuelles de détection des deepfakes reposent sur l’identité, les attributs faciaux, ainsi que des modifications spatio-temporelles basées sur des perturbations adverses, appliquées à l’ensemble de la vidéo ou à des emplacements aléatoires, tout en préservant intégralement le sens du contenu. Toutefois, un deepfake sophistiqué peut contenir uniquement une petite portion manipulée de vidéo ou d’audio, suffisante pour, par exemple, inverser complètement la polarité émotionnelle du contenu. Nous introduisons un nouveau jeu de données audio-visuel pour deepfake, appelé Localized Audio Visual DeepFake (LAV-DF), spécifiquement conçu pour la tâche d’apprentissage de la localisation temporelle des falsifications. Plus précisément, les manipulations audio-visuelles orientées par le contenu sont appliquées de manière stratégique afin de modifier la polarité émotionnelle de l’ensemble de la vidéo. Notre méthode de référence pour évaluer ce jeu de données est un modèle 3DCNN, nommé Boundary Aware Temporal Forgery Detection (BA-TFD), dont l’entraînement est guidé par des fonctions de perte contrastive, de correspondance aux frontières et de classification d’images. Une analyse quantitative et qualitative approfondie démontre la performance remarquable de la méthode proposée pour les tâches de localisation temporelle des falsifications et de détection des deepfakes.