HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Gemeinsame audio-visuelle Deepfake-Erkennung

{Ser-Nam Lim Yipin Zhou}

Gemeinsame audio-visuelle Deepfake-Erkennung

Abstract

Deepfakes („deep learning“ + „fake“) sind künstlich generierte Videos, die mittels KI-Algorithmen erstellt werden. Obwohl sie unterhaltsam sein können, bergen sie auch das Risiko der Missbrauchs zur Fälschung von Reden und zur Verbreitung von Desinformation. Die Erstellung von Deepfakes erfordert sowohl visuelle als auch akustische Manipulationen. Während die Erkennung visueller Deepfakes bereits zu einer Vielzahl von Erkennungsmethoden sowie Datensätzen geführt hat, blieben audio-basierte Deepfakes (z. B. synthetische Sprache aus Text-zu-Sprache- oder Stimmenkonvertierungssystemen) sowie die Beziehung zwischen visuellen und akustischen Modalitäten vergleichsweise unerforscht. In dieser Arbeit stellen wir eine neuartige Aufgabe zur gemeinsamen Erkennung von visuellen und akustischen Deepfakes vor und zeigen, dass die Ausnutzung der inhärenten Synchronisation zwischen visuellen und akustischen Modalitäten die Erkennung von Deepfakes verbessern kann. Experimente belegen, dass der vorgeschlagene gemeinsame Erkennungsansatz unabhängig trainierte Modelle übertrifft und gleichzeitig eine überlegene Generalisierungsfähigkeit gegenüber bisher nicht gesehenen Deepfake-Typen aufweist.

Benchmarks

BenchmarkMethodikMetriken
deepfake-detection-on-fakeavceleb-1AD DFD
AP: 88.8
ROC AUC: 88.1

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Gemeinsame audio-visuelle Deepfake-Erkennung | Forschungsarbeiten | HyperAI