Lip Sync ist wichtig: Ein neuartiger multimodaler Fälschungsdetektor

Die Deepfake-Technologie hat erheblich Fortschritte gemacht, stellt jedoch eine zweischneidige Waffe für die Gesellschaft dar. Sie kann sowohl zu positiven Zwecken eingesetzt werden, beispielsweise zur Wiederherstellung von alten Filminhalten in klassischen Filmen, als auch zu kriminellen Absichten, wie der Erstellung gefälschter Aufnahmen zur Beeinflussung der Öffentlichkeit oder zur Verbreitung von nicht einvernehmlich erstelltem Pornografie-Inhalt. Zahlreiche Forschungsarbeiten haben sich bereits mit der Bekämpfung missbräuchlicher Anwendungen beschäftigt und zeigen dank der Verfügbarkeit zahlreicher öffentlicher Datensätze sowie modellbasierter, einmodaler Deep-Learning-Methoden eine hohe Detektionsleistung bei gefälschten Aufnahmen. Allerdings sind diese Ansätze für die Erkennung multimodaler Manipulationen – beispielsweise gleichzeitiger Verfälschungen in visueller und akustischer Dimension – unzureichend. In dieser Arbeit wird ein neuartiges, auf Lippenlesen basierendes multimodales Deepfake-Erkennungsverfahren vorgestellt, das „Lip Sync Matters“ heißt. Es zielt auf hochwertige semantische Merkmale ab, um die Diskrepanz zwischen der aus dem Video extrahierten Lippensequenz und der synthetisch aus dem Audio generierten Lippensequenz mittels des Wav2lip-Modells zu nutzen, um gefälschte Videos zu identifizieren. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Verfahren mehrere bestehende einmodale, ensemblesbasierte und multimodale Methoden auf dem öffentlich verfügbaren multimodalen FakeAVCeleb-Datensatz übertrifft.