HyperAIHyperAI
vor 11 Tagen

Kombination von EfficientNet und Vision Transformers zur Video-Deepfake-Erkennung

Davide Coccomini, Nicola Messina, Claudio Gennaro, Fabrizio Falchi
Kombination von EfficientNet und Vision Transformers zur Video-Deepfake-Erkennung
Abstract

Deepfakes entstehen durch digitale Manipulation, um realistisch erscheinende, jedoch gefälschte Bilder oder Videos zu erzeugen. Durch die beeindruckenden Fortschritte in tiefen generativen Modellen werden heute gefälschte Bilder oder Videos zunehmend mittels variationaler Autoencoder (VAEs) oder Generative Adversarial Networks (GANs) erstellt. Diese Technologien werden zunehmend zugänglicher und präziser, wodurch die Erkennung solcher Fakes immer schwieriger wird. Traditionell wurden Convolutional Neural Networks (CNNs) zur Erkennung von Deepfakes in Videos eingesetzt, wobei die besten Ergebnisse mit Methoden basierend auf EfficientNet B7 erzielt wurden. In dieser Studie konzentrieren wir uns auf die Erkennung von Deepfakes in Gesichtern, da die meisten aktuellen Methoden mittlerweile äußerst realistische menschliche Gesichter generieren können. Konkret kombinieren wir verschiedene Arten von Vision Transformers mit einem konvolutionellen EfficientNet B0, der als Merkmalsextraktor dient, und erreichen Ergebnisse, die mit einigen der neuesten Ansätze vergleichbar sind, die ebenfalls Vision Transformers nutzen. Im Gegensatz zu aktuellen state-of-the-art-Verfahren verwenden wir weder Knowledge Distillation noch Ensemble-Methoden. Zudem präsentieren wir ein einfaches Inferenzverfahren basierend auf einem einfachen Abstimmungsverfahren zur Behandlung mehrerer Gesichter innerhalb derselben Videosequenz. Das beste Modell erreichte eine AUC von 0,951 und einen F1-Score von 88,0 % – sehr nahe an den besten Ergebnissen des DeepFake Detection Challenge (DFDC).

Kombination von EfficientNet und Vision Transformers zur Video-Deepfake-Erkennung | Neueste Forschungsarbeiten | HyperAI