HyperAIHyperAI

Command Palette

Search for a command to run...

MINTIME: Multi-Identity Size-Invariant Video Deepfake Detection

Davide Alessandro Coccomini Giorgos Kordopatis Zilos Giuseppe Amato Roberto Caldelli Fabrizio Falchi Symeon Papadopoulos Claudio Gennaro

Zusammenfassung

In diesem Artikel stellen wir MINTIME vor, einen Ansatz zur Erkennung von Video-Deepfakes, der räumliche und zeitliche Anomalien erfassen und Szenarien mit mehreren Personen innerhalb derselben Videoaufnahme sowie Variationen der Gesichtsgrößen berücksichtigt. Frühere Ansätze ignorieren solche Informationen entweder durch einfache a-posteriori-Aggregationsverfahren, wie beispielsweise Mittelwert- oder Maximaloperationen, oder sie verwenden lediglich eine einzige Identität für die Inferenz, typischerweise die größte. Im Gegensatz dazu basiert der vorgeschlagene Ansatz auf einem Spatio-Temporal TimeSformer, kombiniert mit einem Convolutional Neural Network (CNN)-Backbone, um räumlich-zeitliche Anomalien aus Gesichtssequenzen mehrerer Identitäten innerhalb eines Videos zu erfassen. Dies wird durch eine identitätsbewusste Aufmerksamkeitsmechanik ermöglicht, die jeweils unabhängig für jede Gesichtssequenz mittels einer Maskierung operiert und die Aggregation auf Video-Ebene unterstützt. Zudem werden zwei neuartige Embeddings eingesetzt: (i) die zeitlich kohärente Positionsemmbedding, die die zeitliche Information jeder Gesichtssequenz kodiert, und (ii) die Größen-Embedding, die die Größe der Gesichter als Verhältnis zur Video-Bildgröße repräsentiert. Diese Erweiterungen ermöglichen es unserem System, sich besonders gut in realen, unkontrollierten Umgebungen anzupassen, indem es lernt, Informationen mehrerer Identitäten effektiv zu aggregieren – ein Aspekt, der in der Literatur häufig vernachlässigt wird. MINTIME erreicht auf dem ForgeryNet-Datensatz Ergebnisse auf State-of-the-Art-Niveau, wobei die AUC bei Videos mit mehreren Personen um bis zu 14 % gesteigert wird, und zeigt zudem eine beachtliche Generalisierungsfähigkeit in Cross-Forgery- und Cross-Dataset-Szenarien. Der Quellcode ist öffentlich unter https://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deepfake-Detection verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp