Les Lèvres Ne Mentent Pas : Une Approche Généralisable et Robuste pour la Détection de la Falsification des Visages

Bien que les détecteurs de faux visages basés sur l'apprentissage profond actuels obtiennent des performances impressionnantes dans des scénarios contraints, ils sont vulnérables aux échantillons créés par des méthodes de manipulation inconnues. Certains travaux récents montrent des améliorations en termes de généralisation mais s'appuient sur des indices qui peuvent être facilement corrompus par des opérations de post-traitement courantes telles que la compression. Dans cet article, nous proposons LipForensics, une approche de détection capable de généraliser à de nouvelles manipulations et de résister à diverses distorsions. LipForensics cible les irrégularités sémantiques de haut niveau dans les mouvements buccaux, qui sont courantes dans de nombreuses vidéos générées. Elle consiste d'abord à pré-entraîner un réseau spatio-temporel pour effectuer la reconnaissance visuelle de la parole (lecture labiale), permettant ainsi d'apprendre des représentations internes riches liées au mouvement naturel de la bouche. Un réseau temporel est ensuite affiné sur des plongements buccaux fixes issus de données réelles et falsifiées afin de détecter les vidéos fausses en se basant sur les mouvements buccaux sans surapprendre aux artefacts spécifiques à bas niveau des manipulations. Des expériences approfondies montrent que cette approche simple dépasse considérablement l'état de l'art en termes de généralisation aux manipulations inconnues et de robustesse face aux perturbations, tout en mettant en lumière les facteurs responsables de ses performances. Le code est disponible sur GitHub.