AV-Lip-Sync+ : Exploiter AV-HuBERT pour détecter les deepfakes vidéo en utilisant l'incohérence multimodale

Les manipulations multimodales (également connues sous le nom de deepfakes audiovisuels) rendent difficile la détection des faux par les détecteurs de deepfakes unimodaux dans le contenu multimédia. Pour éviter la propagation de fausses informations et de fausses nouvelles, une détection rapide est cruciale. Les dommages à l'une ou l'autre modalité (c'est-à-dire visuelle ou auditive) ne peuvent être découverts que grâce à des modèles multimodaux capables d'exploiter simultanément les deux types d'informations. Les méthodes précédentes adoptent principalement la vidéo forensique unimodale et utilisent un pré-entraînement supervisé pour la détection de faux. Cette étude propose une nouvelle méthode basée sur un extracteur de caractéristiques auto-supervisé (SSL) multimodal pour exploiter l'incohérence entre les modalités audio et visuelle pour la détection de faux vidéo multimodale. Nous utilisons le modèle pré-entraîné Audio-Visual HuBERT (AV-HuBERT) basé sur les transformers comme extracteur de caractéristiques visuelles et acoustiques, ainsi qu'un réseau neuronal convolutif temporel multi-échelle pour capturer la corrélation temporelle entre les modalités audio et visuelle. Comme AV-HuBERT n'extrait que des caractéristiques visuelles de la région des lèvres, nous avons également adopté un autre modèle vidéo basé sur les transformers pour exploiter les caractéristiques faciales et capturer les artefacts spatiaux et temporels causés lors du processus de génération des deepfakes. Les résultats expérimentaux montrent que notre modèle surpasses tous les modèles existants et atteint une nouvelle performance d'état de l'art sur les ensembles de données FakeAVCeleb et DeepfakeTIMIT.