Erkundung der zeitlichen Kohärenz für eine allgemeinere Erkennung von Video-Gesichtsfälschungen

Obwohl aktuelle Techniken zur Gesichtsmanipulation hervorragende Leistung in Bezug auf Qualität und Steuerbarkeit erzielen, stoßen sie bei der Generierung zeitlich konsistenter Gesichtsvideos auf Schwierigkeiten. In dieser Arbeit untersuchen wir, wie die zeitliche Kohärenz vollständig für die Erkennung von manipulierten Gesichtsvideos genutzt werden kann. Dazu schlagen wir einen neuartigen end-to-end-Framework vor, der aus zwei Hauptphasen besteht. Die erste Phase ist ein vollständig zeitlicher Faltungsnetzwerk (Fully Temporal Convolutional Network, FTCN). Der zentrale Einblick bei FTCN liegt darin, die räumliche Faltungs-Kerngröße auf 1 zu reduzieren, während die zeitliche Faltungs-Kerngröße unverändert bleibt. Überraschenderweise stellen wir fest, dass diese spezielle Architektur dem Modell hilft, zeitliche Merkmale effizient zu extrahieren und gleichzeitig die Generalisierungsfähigkeit zu verbessern. Die zweite Phase ist ein Temporal Transformer-Netzwerk, das darauf abzielt, die langfristige zeitliche Kohärenz zu erforschen. Der vorgeschlagene Rahmen ist allgemein und flexibel und kann direkt von Grund auf ohne Verwendung vortrainierter Modelle oder externer Datensätze trainiert werden. Ausführliche Experimente zeigen, dass unser Framework bestehende Methoden übertrifft und auch bei der Erkennung neuer Arten manipulierter Gesichtsvideos weiterhin wirksam bleibt.