HyperAIHyperAI
vor 2 Monaten

AV-Lip-Sync+: Die Nutzung von AV-HuBERT zur Ausnutzung multimodaler Inkonsistenzen für die Erkennung von Video-Deepfakes

Sahibzada Adil Shahzad; Ammarah Hashmi; Yan-Tsung Peng; Yu Tsao; Hsin-Min Wang
AV-Lip-Sync+: Die Nutzung von AV-HuBERT zur Ausnutzung multimodaler Inkonsistenzen für die Erkennung von Video-Deepfakes
Abstract

Multimodale Manipulationen (auch bekannt als audiovisuelle Deepfakes) erschweren es für unimodale Deepfake-Detektoren, Fälschungen in multimedialen Inhalten zu erkennen. Um die Verbreitung von Falschinformationen und Fake News zu verhindern, ist eine zeitgerechte Erkennung entscheidend. Schäden an einer der Modalitäten (d.h., visuell oder akustisch) können nur durch multimodale Modelle entdeckt werden, die beide Informationsquellen gleichzeitig auswerten können. Frühere Methoden setzen hauptsächlich auf unimodale Video-Forensik und verwenden überwachtes Pre-Training zur Fälschungserkennung. Diese Studie schlägt eine neue Methode vor, die auf einem multimodalen selbstüberwachten Lernverfahren (Self-Supervised Learning, SSL) basiert, um Inkonsistenzen zwischen den audio- und visuellen Modalitäten für die multimodale Video-Fälschungserkennung auszuwerten. Wir verwenden das auf Transformatoren basierende SSL-pregetrainierte Audio-Visual HuBERT (AV-HuBERT)-Modell als Visual- und Akustik-Feature-Extractor sowie ein mehrskaliges temporales konvolutives Neuronales Netzwerk, um die zeitliche Korrelation zwischen den audio- und visuellen Modalitäten zu erfassen. Da AV-HuBERT nur visuelle Merkmale aus dem Mundbereich extrahiert, setzen wir auch ein weiteres auf Transformatoren basierendes Video-Modell ein, um Gesichtsmerkmale auszuwerten und räumliche und zeitliche Artefakte zu erfassen, die während des Deepfake-Erzeugungsprozesses entstehen. Experimentelle Ergebnisse zeigen, dass unser Modell alle existierenden Modelle übertreffen kann und neue Standartleistungen (state-of-the-art performance) auf den Datensätzen FakeAVCeleb und DeepfakeTIMIT erzielt.

AV-Lip-Sync+: Die Nutzung von AV-HuBERT zur Ausnutzung multimodaler Inkonsistenzen für die Erkennung von Video-Deepfakes | Neueste Forschungsarbeiten | HyperAI