Exploitation de visages parlants réels par auto-supervision pour une détection robuste des falsifications

L’un des défis les plus pressants dans la détection des vidéos manipulées mettant en scène des visages consiste à généraliser efficacement aux méthodes de falsification non observées durant l’entraînement, tout en maintenant une performance robuste face à des dégradations courantes telles que la compression. Dans ce travail, nous explorons la possibilité de relever ce défi en exploitant des vidéos de visages réels en mouvement, riches en informations sur l’apparence et le comportement faciaux naturels, et facilement disponibles en grande quantité sur Internet. Notre méthode, nommée RealForensics, repose sur deux étapes. Premièrement, nous tirons parti de la correspondance naturelle entre les modalités visuelle et auditive dans les vidéos réelles pour apprendre, de manière auto-supervisée et transmodale, des représentations vidéo temporellement denses qui captent des facteurs tels que les mouvements faciaux, les expressions et l’identité. Deuxièmement, nous utilisons ces représentations apprises comme cibles à prédire par notre détecteur de falsification, en parallèle de la tâche classique de classification binaire (réel/faux) ; cela incite le détecteur à fonder son jugement sur ces facteurs spécifiques. Nous démontrons que notre méthode atteint des performances de pointe dans les expériences de généralisation à travers différentes méthodes de manipulation et de robustesse, et analysons les facteurs contribuant à cette performance. Nos résultats suggèrent que l’exploitation de vidéos naturelles non étiquetées constitue une voie prometteuse pour le développement de détecteurs de falsification faciale plus robustes.