Less is More für die Detektion synthetischer Sprache in der Wildnis
{Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg}

Abstract
Getrieben durch Fortschritte im selbstüberwachten Lernen für Sprache haben neuere Detektoren für synthetische Sprache auf gängigen Benchmarks wie ASVspoof bereits sehr niedrige Fehlerraten erreicht. Allerdings berücksichtigen bisherige Benchmarks nicht die große Bandbreite an Variabilität, die in realen Anwendungsszenarien auftritt. Sind die gemeldeten Fehlerraten unter realen Bedingungen tatsächlich realistisch? Um die Fehlermuster und die Robustheit von Detektoren unter kontrollierten Verteilungsverschiebungen zu analysieren, stellen wir ShiftySpeech vor – ein Benchmark mit mehr als 3000 Stunden synthetischer Sprache aus 7 Domänen, 6 TTS-Systemen, 12 Vokodern und 3 Sprachen. Wir stellten fest, dass alle betrachteten Verteilungsverschiebungen die Modellleistung beeinträchtigten. Im Gegensatz zu früheren Erkenntnissen garantierte das Training mit mehr Vokodern, Sprechern oder durch Datenverstärkung nicht automatisch eine bessere Generalisierung. Tatsächlich zeigte sich, dass die Verwendung weniger vielfältiger Trainingsdaten zu einer besseren Generalisierung führte. Insbesondere erreichte ein Detektor, der ausschließlich anhand von Proben aus einem einzeln sorgfältig ausgewählten Vocoder und einer geringen Anzahl von Sprechern ohne Datenverstärkung trainiert wurde, herausragende Ergebnisse auf dem anspruchsvollen In-the-Wild-Benchmark.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.