HyperAIHyperAI
il y a 11 jours

Combinaison d'EfficientNet et de Vision Transformers pour la détection des deepfakes vidéo

Davide Coccomini, Nicola Messina, Claudio Gennaro, Fabrizio Falchi
Combinaison d'EfficientNet et de Vision Transformers pour la détection des deepfakes vidéo
Résumé

Les deepfakes résultent d’une manipulation numérique visant à produire des images ou vidéos réalistes mais falsifiées. Grâce aux progrès remarquables des modèles génératifs profonds, les images ou vidéos falsifiées sont aujourd’hui obtenues à l’aide de variational autoencodeurs (VAEs) ou de réseaux adverses génératifs (GANs). Ces technologies deviennent de plus en plus accessibles et précises, conduisant à des vidéos falsifiées extrêmement difficiles à détecter. Traditionnellement, les réseaux de neurones convolutifs (CNN) ont été utilisés pour la détection des deepfakes vidéo, les meilleurs résultats étant obtenus par des méthodes basées sur EfficientNet B7. Dans cette étude, nous nous concentrons sur la détection des deepfakes vidéo sur les visages, étant donné que la plupart des méthodes actuelles parviennent à générer des visages humains très réalistes. Plus précisément, nous combinons divers types de Vision Transformers avec un EfficientNet B0 convolutif utilisé comme extracteur de caractéristiques, obtenant des résultats comparables à ceux de certaines méthodes récentes utilisant des Vision Transformers. Contrairement aux approches de pointe, nous n’utilisons ni méthode de distillation ni techniques d’ensemble. En outre, nous proposons une procédure d’inférence simple fondée sur un schéma de vote élémentaire pour traiter plusieurs visages présents dans une même prise de vue vidéo. Le meilleur modèle atteint un AUC de 0,951 et un score F1 de 88,0 %, très proches des résultats de pointe sur le DeepFake Detection Challenge (DFDC).

Combinaison d'EfficientNet et de Vision Transformers pour la détection des deepfakes vidéo | Articles de recherche récents | HyperAI