HyperAIHyperAI
il y a 11 jours

La synchronisation labiale est importante : un nouveau détecteur de falsification multimodal

{Hsin-Min Wang, Yu Tsao, Yan-Tsung Peng, Sarwar Khan, Ammarah Hashmi, Sahibzada Adil Shahzad}
La synchronisation labiale est importante : un nouveau détecteur de falsification multimodal
Résumé

La technologie des deepfakes a considérablement évolué, mais elle représente un outil à double tranchant pour la communauté. Elle peut être utilisée à des fins bénéfiques, comme la restauration de contenus vintage dans des films anciens, ou à des fins malveillantes, telles que la création de séquences falsifiées destinées à manipuler l'opinion publique ou à diffuser des contenus pornographiques sans consentement. De nombreux travaux ont été menés pour lutter contre son usage abusif, notamment par la détection de contenus falsifiés grâce à des modèles basés sur l'apprentissage profond unimodal, rendus possibles par la disponibilité de nombreuses bases de données publiques. Toutefois, ces approches se révèlent insuffisantes pour détecter les manipulations multimodales, telles que celles affectant à la fois les composantes visuelles et acoustiques. Ce travail propose une nouvelle méthode de détection des deepfakes multimodaux basée sur la lecture labiale, nommée « Lip Sync Matters ». Elle cible des caractéristiques sémantiques de haut niveau afin d’exploiter les incohérences entre la séquence labiale extraite d’une vidéo et la séquence labiale synthétisée à partir de l’audio par le modèle Wav2Lip, permettant ainsi de détecter efficacement les vidéos falsifiées. Les résultats expérimentaux montrent que la méthode proposée surpasser plusieurs approches existantes, qu’elles soient unimodales, ensemblistes ou multimodales, sur le jeu de données multimodal public FakeAVCeleb.

La synchronisation labiale est importante : un nouveau détecteur de falsification multimodal | Articles de recherche récents | HyperAI