HyperAIHyperAI

Command Palette

Search for a command to run...

Bts-e: Audio-Deepfake-Detektion mittels Atem-Sprechen-Stille-Encoder

Kihun Hong Souhwan Jung Long Nguyen-Vu Thien-Phuc Doan

Zusammenfassung

Voice-Phishing (Vishing) gewinnt aufgrund der Entwicklung von Sprachsynthesetechnologien zunehmend an Beliebtheit. Insbesondere die Nutzung von Deep Learning zur Erzeugung von Audio-Clips beliebigen Inhalts, die die Stimme des Opfers nachahmen, macht es nicht nur für Menschen, sondern auch für automatisierte Sprachverifizierungssysteme (ASV) schwer, zwischen echt und gefälscht zu unterscheiden. In jüngster Zeit wurden Gegenmaßnahmen (Countermeasures, CM) entwickelt, um ASV-Systeme bei der Erkennung synthetischer Sprache zu unterstützen. In dieser Arbeit stellen wir BTS-E vor, einen Rahmen, der die Korrelation zwischen Atem-, Sprech- und Stille-Signalen innerhalb eines Audio-Clips analysiert, um diese Informationen anschließend für Aufgaben der Deepfake-Erkennung zu nutzen. Wir argumentieren, dass natürliche menschliche Geräusche wie Atemgeräusche durch Text-to-Speech-(TTS)-Systeme schwer zu synthetisieren sind. Zur Validierung unserer Hypothese führten wir eine groß angelegte Evaluierung mit den ASVspoof 2019- und 2021-Evaluationssätzen durch. Die experimentellen Ergebnisse belegen die Anwendbarkeit von Atemgeräuschmerkmalen zur Erkennung von Deepfake-Stimmen. Insgesamt erhöht das vorgeschlagene System die Leistung des Klassifikators signifikant um bis zu 46 %.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Bts-e: Audio-Deepfake-Detektion mittels Atem-Sprechen-Stille-Encoder | Paper | HyperAI