HyperAIHyperAI

Command Palette

Search for a command to run...

AV-Lip-Sync+: Die Nutzung von AV-HuBERT zur Ausnutzung multimodaler Inkonsistenzen für die Erkennung von Video-Deepfakes

Sahibzada Adil Shahzad Ammarah Hashmi Yan-Tsung Peng Yu Tsao, Senior Member, IEEE Hsin-Min Wang, Senior Member, IEEE

Zusammenfassung

Multimodale Manipulationen (auch bekannt als audiovisuelle Deepfakes) erschweren es für unimodale Deepfake-Detektoren, Fälschungen in multimedialen Inhalten zu erkennen. Um die Verbreitung von Falschinformationen und Fake News zu verhindern, ist eine zeitgerechte Erkennung entscheidend. Schäden an einer der Modalitäten (d.h., visuell oder akustisch) können nur durch multimodale Modelle entdeckt werden, die beide Informationsquellen gleichzeitig auswerten können. Frühere Methoden setzen hauptsächlich auf unimodale Video-Forensik und verwenden überwachtes Pre-Training zur Fälschungserkennung. Diese Studie schlägt eine neue Methode vor, die auf einem multimodalen selbstüberwachten Lernverfahren (Self-Supervised Learning, SSL) basiert, um Inkonsistenzen zwischen den audio- und visuellen Modalitäten für die multimodale Video-Fälschungserkennung auszuwerten. Wir verwenden das auf Transformatoren basierende SSL-pregetrainierte Audio-Visual HuBERT (AV-HuBERT)-Modell als Visual- und Akustik-Feature-Extractor sowie ein mehrskaliges temporales konvolutives Neuronales Netzwerk, um die zeitliche Korrelation zwischen den audio- und visuellen Modalitäten zu erfassen. Da AV-HuBERT nur visuelle Merkmale aus dem Mundbereich extrahiert, setzen wir auch ein weiteres auf Transformatoren basierendes Video-Modell ein, um Gesichtsmerkmale auszuwerten und räumliche und zeitliche Artefakte zu erfassen, die während des Deepfake-Erzeugungsprozesses entstehen. Experimentelle Ergebnisse zeigen, dass unser Modell alle existierenden Modelle übertreffen kann und neue Standartleistungen (state-of-the-art performance) auf den Datensätzen FakeAVCeleb und DeepfakeTIMIT erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp