HyperAIHyperAI

Command Palette

Search for a command to run...

AV-Lip-Sync+ : Exploiter AV-HuBERT pour détecter les deepfakes vidéo en utilisant l'incohérence multimodale

Sahibzada Adil Shahzad Ammarah Hashmi Yan-Tsung Peng Yu Tsao, Senior Member, IEEE Hsin-Min Wang, Senior Member, IEEE

Résumé

Les manipulations multimodales (également connues sous le nom de deepfakes audiovisuels) rendent difficile la détection des faux par les détecteurs de deepfakes unimodaux dans le contenu multimédia. Pour éviter la propagation de fausses informations et de fausses nouvelles, une détection rapide est cruciale. Les dommages à l'une ou l'autre modalité (c'est-à-dire visuelle ou auditive) ne peuvent être découverts que grâce à des modèles multimodaux capables d'exploiter simultanément les deux types d'informations. Les méthodes précédentes adoptent principalement la vidéo forensique unimodale et utilisent un pré-entraînement supervisé pour la détection de faux. Cette étude propose une nouvelle méthode basée sur un extracteur de caractéristiques auto-supervisé (SSL) multimodal pour exploiter l'incohérence entre les modalités audio et visuelle pour la détection de faux vidéo multimodale. Nous utilisons le modèle pré-entraîné Audio-Visual HuBERT (AV-HuBERT) basé sur les transformers comme extracteur de caractéristiques visuelles et acoustiques, ainsi qu'un réseau neuronal convolutif temporel multi-échelle pour capturer la corrélation temporelle entre les modalités audio et visuelle. Comme AV-HuBERT n'extrait que des caractéristiques visuelles de la région des lèvres, nous avons également adopté un autre modèle vidéo basé sur les transformers pour exploiter les caractéristiques faciales et capturer les artefacts spatiaux et temporels causés lors du processus de génération des deepfakes. Les résultats expérimentaux montrent que notre modèle surpasses tous les modèles existants et atteint une nouvelle performance d'état de l'art sur les ensembles de données FakeAVCeleb et DeepfakeTIMIT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp