Heißt das wirklich? Inhaltsgetriebener audio-visueller Deepfake-Datensatz und multimodale Methode zur zeitlichen Fälschungsortung

Aufgrund seines hohen gesellschaftlichen Einflusses erfährt die Deepfake-Erkennung in der Gemeinschaft der Computer Vision zunehmende Aufmerksamkeit. Die meisten Ansätze zur Deepfake-Erkennung basieren auf Identität, Gesichtszügen und adversarialen Störungen, die räumlich-zeitliche Veränderungen im gesamten Video oder an zufälligen Orten vorgenommen werden, wobei der Inhaltstext unverändert bleibt. Ein fortschrittlicher Deepfake kann jedoch lediglich einen kleinen Teil des Videos oder Audios manipulieren, wodurch sich beispielsweise die emotionale Ausrichtung des Inhalts vollständig umkehren kann. Wir stellen einen inhärent inhaltsbasierten audiovisuellen Deepfake-Datensatz vor, der als Localized Audio Visual DeepFake (LAV-DF) bezeichnet wird und explizit für die Aufgabe der zeitlichen Fälschungslokalisierung entwickelt wurde. Insbesondere werden inhaltsbasierte audiovisuelle Manipulationen strategisch durchgeführt, um die sentimentale Polarität des gesamten Videos zu verändern. Als Baseline-Methode zur Bewertung des vorgestellten Datensatzes verwenden wir ein 3DCNN-Modell, das als Boundary Aware Temporal Forgery Detection (BA-TFD) bezeichnet wird und über kontrastive, Randübereinstimmungs- und Frame-Klassifizierungsverlustfunktionen geleitet wird. Unsere umfassende quantitative und qualitative Analyse belegt die starke Leistungsfähigkeit der vorgeschlagenen Methode bei der Aufgabe der zeitlichen Fälschungslokalisierung sowie der Deepfake-Erkennung.