HyperAIHyperAI
vor 11 Tagen

Bts-e: Audio-Deepfake-Detektion mittels Atem-Sprechen-Stille-Encoder

{Kihun Hong, Souhwan Jung, Long Nguyen-Vu, Thien-Phuc Doan}
Abstract

Voice-Phishing (Vishing) gewinnt aufgrund der Entwicklung von Sprachsynthesetechnologien zunehmend an Beliebtheit. Insbesondere die Nutzung von Deep Learning zur Erzeugung von Audio-Clips beliebigen Inhalts, die die Stimme des Opfers nachahmen, macht es nicht nur für Menschen, sondern auch für automatisierte Sprachverifizierungssysteme (ASV) schwer, zwischen echt und gefälscht zu unterscheiden. In jüngster Zeit wurden Gegenmaßnahmen (Countermeasures, CM) entwickelt, um ASV-Systeme bei der Erkennung synthetischer Sprache zu unterstützen. In dieser Arbeit stellen wir BTS-E vor, einen Rahmen, der die Korrelation zwischen Atem-, Sprech- und Stille-Signalen innerhalb eines Audio-Clips analysiert, um diese Informationen anschließend für Aufgaben der Deepfake-Erkennung zu nutzen. Wir argumentieren, dass natürliche menschliche Geräusche wie Atemgeräusche durch Text-to-Speech-(TTS)-Systeme schwer zu synthetisieren sind. Zur Validierung unserer Hypothese führten wir eine groß angelegte Evaluierung mit den ASVspoof 2019- und 2021-Evaluationssätzen durch. Die experimentellen Ergebnisse belegen die Anwendbarkeit von Atemgeräuschmerkmalen zur Erkennung von Deepfake-Stimmen. Insgesamt erhöht das vorgeschlagene System die Leistung des Klassifikators signifikant um bis zu 46 %.

Bts-e: Audio-Deepfake-Detektion mittels Atem-Sprechen-Stille-Encoder | Neueste Forschungsarbeiten | HyperAI