HyperAIHyperAI
vor 12 Tagen

Gemeinsame audio-visuelle Deepfake-Erkennung

{Ser-Nam Lim, Yipin Zhou}
Gemeinsame audio-visuelle Deepfake-Erkennung
Abstract

Deepfakes („deep learning“ + „fake“) sind künstlich generierte Videos, die mittels KI-Algorithmen erstellt werden. Obwohl sie unterhaltsam sein können, bergen sie auch das Risiko der Missbrauchs zur Fälschung von Reden und zur Verbreitung von Desinformation. Die Erstellung von Deepfakes erfordert sowohl visuelle als auch akustische Manipulationen. Während die Erkennung visueller Deepfakes bereits zu einer Vielzahl von Erkennungsmethoden sowie Datensätzen geführt hat, blieben audio-basierte Deepfakes (z. B. synthetische Sprache aus Text-zu-Sprache- oder Stimmenkonvertierungssystemen) sowie die Beziehung zwischen visuellen und akustischen Modalitäten vergleichsweise unerforscht. In dieser Arbeit stellen wir eine neuartige Aufgabe zur gemeinsamen Erkennung von visuellen und akustischen Deepfakes vor und zeigen, dass die Ausnutzung der inhärenten Synchronisation zwischen visuellen und akustischen Modalitäten die Erkennung von Deepfakes verbessern kann. Experimente belegen, dass der vorgeschlagene gemeinsame Erkennungsansatz unabhängig trainierte Modelle übertrifft und gleichzeitig eine überlegene Generalisierungsfähigkeit gegenüber bisher nicht gesehenen Deepfake-Typen aufweist.

Gemeinsame audio-visuelle Deepfake-Erkennung | Neueste Forschungsarbeiten | HyperAI