Automatische Sprecheridentifikations-Spoofing-Erkennung und Deepfake-Detektion mittels wav2vec 2.0 und Datenaugmentierung

Die Leistung von Spoofing-Gegenmaßnahmesystemen beruht grundlegend auf der Verwendung ausreichend repräsentativer Trainingsdaten. Da solche Daten meist begrenzt sind, weisen aktuelle Lösungen typischerweise eine unzureichende Generalisierbarkeit gegenüber Angriffen auf, die im realen Einsatz auftreten. Strategien zur Verbesserung der Zuverlässigkeit gegenüber kontrolllosen, unvorhersehbaren Angriffen sind daher erforderlich. In diesem Paper berichten wir über unsere Bemühungen, selbstüberwachtes Lernen in Form eines wav2vec 2.0 Front-Ends mit Feinabstimmung einzusetzen. Trotz der Tatsache, dass die Basisdarstellungen ursprünglich ausschließlich anhand authentischer Daten und ohne gespoofte Daten gelernt wurden, erzielen wir die niedrigsten in der Literatur bisher gemeldeten Equal Error Rates sowohl für die ASVspoof 2021 Logical Access- als auch für die Deepfake-Datenbank. In Kombination mit Datenaugmentation entsprechen diese Ergebnisse einer Verbesserung von fast 90 % im Vergleich zu unserem Basissystem.