Détection des deepfakes audio-visuels par apprentissage profond

Les deepfakes (« deep learning » + « fake ») sont des vidéos générées de manière synthétique par des algorithmes d’intelligence artificielle. Bien qu’ils puissent être amusants, ils peuvent également être utilisés de manière malveillante pour falsifier des discours ou propager de la désinformation. La création de deepfakes repose sur des manipulations à la fois visuelles et auditives. Si des recherches ont déjà abouti à plusieurs méthodes de détection des deepfakes visuels ainsi qu’à la mise en place de jeux de données dédiés, les deepfakes audio (par exemple, des paroles synthétiques produites par des systèmes de synthèse vocale ou de conversion de voix) ainsi que les interactions entre les modalités visuelle et auditive ont été relativement négligées. Dans ce travail, nous proposons une nouvelle tâche de détection conjointe des deepfakes visuels et auditifs, et montrons que l’exploitation de la synchronisation intrinsèque entre ces deux modalités peut améliorer significativement la détection des deepfakes. Les expérimentations démontrent que le cadre de détection conjointe proposé surpasse les modèles entraînés indépendamment, tout en offrant une meilleure capacité de généralisation face à des types de deepfakes inédits.