MINTIME: Multi-Identity Size-Invariant Video Deepfake Detection

In diesem Artikel stellen wir MINTIME vor, einen Ansatz zur Erkennung von Video-Deepfakes, der räumliche und zeitliche Anomalien erfassen und Szenarien mit mehreren Personen innerhalb derselben Videoaufnahme sowie Variationen der Gesichtsgrößen berücksichtigt. Frühere Ansätze ignorieren solche Informationen entweder durch einfache a-posteriori-Aggregationsverfahren, wie beispielsweise Mittelwert- oder Maximaloperationen, oder sie verwenden lediglich eine einzige Identität für die Inferenz, typischerweise die größte. Im Gegensatz dazu basiert der vorgeschlagene Ansatz auf einem Spatio-Temporal TimeSformer, kombiniert mit einem Convolutional Neural Network (CNN)-Backbone, um räumlich-zeitliche Anomalien aus Gesichtssequenzen mehrerer Identitäten innerhalb eines Videos zu erfassen. Dies wird durch eine identitätsbewusste Aufmerksamkeitsmechanik ermöglicht, die jeweils unabhängig für jede Gesichtssequenz mittels einer Maskierung operiert und die Aggregation auf Video-Ebene unterstützt. Zudem werden zwei neuartige Embeddings eingesetzt: (i) die zeitlich kohärente Positionsemmbedding, die die zeitliche Information jeder Gesichtssequenz kodiert, und (ii) die Größen-Embedding, die die Größe der Gesichter als Verhältnis zur Video-Bildgröße repräsentiert. Diese Erweiterungen ermöglichen es unserem System, sich besonders gut in realen, unkontrollierten Umgebungen anzupassen, indem es lernt, Informationen mehrerer Identitäten effektiv zu aggregieren – ein Aspekt, der in der Literatur häufig vernachlässigt wird. MINTIME erreicht auf dem ForgeryNet-Datensatz Ergebnisse auf State-of-the-Art-Niveau, wobei die AUC bei Videos mit mehreren Personen um bis zu 14 % gesteigert wird, und zeigt zudem eine beachtliche Generalisierungsfähigkeit in Cross-Forgery- und Cross-Dataset-Szenarien. Der Quellcode ist öffentlich unter https://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deepfake-Detection verfügbar.