vor 8 Monaten

Sahibzada Adil Shahzad Ammarah Hashmi Yan-Tsung Peng Yu Tsao, Senior Member, IEEE Hsin-Min Wang, Senior Member, IEEE

Zusammenfassung

Multimodale Manipulationen (auch bekannt als audiovisuelle Deepfakes) erschweren es für unimodale Deepfake-Detektoren, Fälschungen in multimedialen Inhalten zu erkennen. Um die Verbreitung von Falschinformationen und Fake News zu verhindern, ist eine zeitgerechte Erkennung entscheidend. Schäden an einer der Modalitäten (d.h., visuell oder akustisch) können nur durch multimodale Modelle entdeckt werden, die beide Informationsquellen gleichzeitig auswerten können. Frühere Methoden setzen hauptsächlich auf unimodale Video-Forensik und verwenden überwachtes Pre-Training zur Fälschungserkennung. Diese Studie schlägt eine neue Methode vor, die auf einem multimodalen selbstüberwachten Lernverfahren (Self-Supervised Learning, SSL) basiert, um Inkonsistenzen zwischen den audio- und visuellen Modalitäten für die multimodale Video-Fälschungserkennung auszuwerten. Wir verwenden das auf Transformatoren basierende SSL-pregetrainierte Audio-Visual HuBERT (AV-HuBERT)-Modell als Visual- und Akustik-Feature-Extractor sowie ein mehrskaliges temporales konvolutives Neuronales Netzwerk, um die zeitliche Korrelation zwischen den audio- und visuellen Modalitäten zu erfassen. Da AV-HuBERT nur visuelle Merkmale aus dem Mundbereich extrahiert, setzen wir auch ein weiteres auf Transformatoren basierendes Video-Modell ein, um Gesichtsmerkmale auszuwerten und räumliche und zeitliche Artefakte zu erfassen, die während des Deepfake-Erzeugungsprozesses entstehen. Experimentelle Ergebnisse zeigen, dass unser Modell alle existierenden Modelle übertreffen kann und neue Standartleistungen (state-of-the-art performance) auf den Datensätzen FakeAVCeleb und DeepfakeTIMIT erzielt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multimodale Darstellung

Audio- Und Sprachverarbeitung

Audio

Multimodal

Aufgabe

Sahibzada Adil Shahzad Ammarah Hashmi Yan-Tsung Peng Yu Tsao, Senior Member, IEEE Hsin-Min Wang, Senior Member, IEEE

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multimodale Darstellung

Audio- Und Sprachverarbeitung

Audio

Multimodal

Aufgabe

Sahibzada Adil Shahzad Ammarah Hashmi Yan-Tsung Peng Yu Tsao, Senior Member, IEEE Hsin-Min Wang, Senior Member, IEEE

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

AV-Lip-Sync+: Die Nutzung von AV-HuBERT zur Ausnutzung multimodaler Inkonsistenzen für die Erkennung von Video-Deepfakes | Paper | HyperAI

Command Palette

AV-Lip-Sync+: Die Nutzung von AV-HuBERT zur Ausnutzung multimodaler Inkonsistenzen für die Erkennung von Video-Deepfakes

Sahibzada Adil Shahzad Ammarah Hashmi Yan-Tsung Peng Yu Tsao, Senior Member, IEEE Hsin-Min Wang, Senior Member, IEEE

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

AV-Lip-Sync+: Die Nutzung von AV-HuBERT zur Ausnutzung multimodaler Inkonsistenzen für die Erkennung von Video-Deepfakes

Sahibzada Adil Shahzad Ammarah Hashmi Yan-Tsung Peng Yu Tsao, Senior Member, IEEE Hsin-Min Wang, Senior Member, IEEE

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

AV-Lip-Sync+: Die Nutzung von AV-HuBERT zur Ausnutzung multimodaler Inkonsistenzen für die Erkennung von Video-Deepfakes

Sahibzada Adil Shahzad Ammarah Hashmi Yan-Tsung Peng Yu Tsao, Senior Member, IEEE Hsin-Min Wang, Senior Member, IEEE

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters