HyperAIHyperAI
il y a 11 jours

AVTENet : Réseau d'ensembles basé sur la transformation audiovisuelle exploitant plusieurs experts pour la détection des deepfakes vidéo

Ammarah Hashmi, Sahibzada Adil Shahzad, Chia-Wen Lin, Yu Tsao, Hsin-Min Wang
AVTENet : Réseau d'ensembles basé sur la transformation audiovisuelle exploitant plusieurs experts pour la détection des deepfakes vidéo
Résumé

Le contenu falsifié partagé largement sur les plateformes de médias sociaux constitue un enjeu social majeur exigeant une régulation accrue et posant de nouveaux défis à la communauté scientifique. La récente prolifération de vidéos deepfake hyper-réalistes a attiré l’attention sur le risque représenté par les falsifications audiovisuelles. La plupart des travaux antérieurs sur la détection des vidéos falsifiées générées par l’IA se concentrent uniquement sur la modalité visuelle ou la modalité audio. Bien que certaines méthodes existantes explorent simultanément les modalités audio et visuelle pour détecter les vidéos falsifiées, elles n’ont pas été évaluées de manière exhaustive sur des jeux de données multimodaux de vidéos deepfake impliquant des manipulations acoustiques et visuelles. En outre, ces méthodes existantes reposent principalement sur des réseaux de neurones convolutifs (CNN), ce qui entraîne une précision de détection faible. Inspirés par les récents succès des architectures Transformer dans divers domaines, afin de relever les défis posés par la technologie deepfake, nous proposons dans cet article un cadre original appelé AVTENet (Audio-Visual Transformer-based Ensemble Network), qui prend en compte à la fois les manipulations acoustiques et visuelles pour une détection efficace des falsifications vidéo. Plus précisément, le modèle proposé intègre plusieurs variantes fondées exclusivement sur des Transformers, capables de capturer des indices saillants provenant de la vidéo, de l’audio et de l’audiovisuel, afin d’atteindre un consensus dans les prédictions. Pour évaluer notre approche, nous utilisons le jeu de données récentement publié, multimodal, audio-visuel, FakeAVCeleb. Une analyse détaillée est menée en évaluant AVTENet, ses variantes ainsi que plusieurs méthodes existantes sur plusieurs ensembles de test du jeu de données FakeAVCeleb. Les résultats expérimentaux montrent que notre meilleur modèle surpasse toutes les méthodes existantes et atteint une performance de pointe sur les ensembles de test Testset-I et Testset-II du jeu de données FakeAVCeleb.

AVTENet : Réseau d'ensembles basé sur la transformation audiovisuelle exploitant plusieurs experts pour la détection des deepfakes vidéo | Articles de recherche récents | HyperAI