HyperAIHyperAI
il y a 11 jours

Exploration de la cohérence temporelle pour une détection plus générale des falsifications faciales vidéo

Yinglin Zheng, Jianmin Bao, Dong Chen, Ming Zeng, Fang Wen
Exploration de la cohérence temporelle pour une détection plus générale des falsifications faciales vidéo
Résumé

Bien que les techniques actuelles de manipulation faciale atteignent des performances impressionnantes en termes de qualité et de contrôle, elles peinent à générer des vidéos faciales cohérentes dans le temps. Dans ce travail, nous explorons l'exploitation optimale de la cohérence temporelle pour la détection de la falsification vidéo de visages. Pour y parvenir, nous proposons un nouveau cadre end-to-end composé de deux étapes majeures. La première étape est un réseau de convolution temporelle entièrement dédié (FTCN). L'idée centrale du FTCN consiste à réduire la taille du noyau de convolution spatiale à 1 tout en maintenant inchangée la taille du noyau de convolution temporelle. Nous constatons de manière surprenante que cette conception particulière permet au modèle d’extraire efficacement des caractéristiques temporelles tout en améliorant sa capacité de généralisation. La deuxième étape est un réseau Transformer temporel, conçu pour explorer la cohérence temporelle à long terme. Le cadre proposé est général et flexible, pouvant être entraîné directement depuis zéro, sans recourir à des modèles pré-entraînés ni à des jeux de données externes. Des expériences étendues montrent que notre cadre surpasse les méthodes existantes et reste efficace même lorsqu’il est appliqué à la détection de nouveaux types de vidéos falsifiées de visages.

Exploration de la cohérence temporelle pour une détection plus générale des falsifications faciales vidéo | Articles de recherche récents | HyperAI