HyperAIHyperAI
vor 17 Tagen

Audio-Deepfake-Erkennung mit selbstüberwachtem XLS-R und SLS-Klassifizierer

{Tao Hu, Shuangbing Wen, Qishan Zhang}
Audio-Deepfake-Erkennung mit selbstüberwachtem XLS-R und SLS-Klassifizierer
Abstract

Generative KI-Technologien, darunter Text-zu-Sprache (TTS) und Sprachkonvertierung (VC), werden zunehmend von echten Aufnahmen nicht mehr unterscheidbar, was für Individuen erhebliche Schwierigkeiten bei der Unterscheidung zwischen echtem und synthetischem Inhalt darstellt. Diese Ununterscheidbarkeit untergräbt das Vertrauen in Medien, und die willkürliche Nachbildung persönlicher Sprachsignale stellt erhebliche Herausforderungen für Datenschutz und Sicherheit dar. In der Forschung zu Deepfake-Audio-Detektion setzen die meisten Modelle, die derzeit eine hohe Detektionsgenauigkeit erzielen, auf selbstüberwachte vortrainierte Modelle. Doch mit der kontinuierlichen Weiterentwicklung von Deepfake-Audio-Generierungsalgorithmen wird die Aufrechterhaltung einer hohen Unterscheidungsgenauigkeit gegenüber neuen Algorithmen zunehmend herausfordernder. Um die Empfindlichkeit der Deepfake-Audio-merkmale zu erhöhen, schlagen wir ein Deepfake-Audio-Detektionsmodell vor, das einen SLS-Modul (Sensitive Layer Selection) integriert. Konkret ermöglicht die Nutzung des vortrainierten XLS-R-Modells, dass unser Modell diverse Audio-merkmale aus verschiedenen Schichten extrahiert, wobei jede Schicht unterschiedliche diskriminative Informationen liefert. Mit dem SLS-Klassifikator erfasst unser Modell sensible kontextuelle Informationen über verschiedene Schichtebenen der Audio-merkmale und nutzt diese effektiv für die Erkennung von gefälschten Audiodaten. Experimentelle Ergebnisse zeigen, dass unsere Methode sowohl auf dem ASVspoof 2021 DF- als auch auf dem In-the-Wild-Datensatz state-of-the-art (SOTA)-Leistung erzielt, mit einer spezifischen Equal Error Rate (EER) von 1,92 % auf dem ASVspoof 2021 DF-Datensatz und 7,46 % auf dem In-the-Wild-Datensatz. Der Quellcode und die Daten sind unter https://github.com/QiShanZhang/SLSforADD verfügbar.

Audio-Deepfake-Erkennung mit selbstüberwachtem XLS-R und SLS-Klassifizierer | Neueste Forschungsarbeiten | HyperAI