Command Palette
Search for a command to run...
Moins, c’est plus pour la détection de la parole synthétique dans le monde réel
{Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg}

Résumé
Porté par les progrès de l’apprentissage non supervisé pour le langage parlé, les détecteurs de paroles synthétiques de pointe ont atteint des taux d’erreur très faibles sur des benchmarks populaires tels qu’ASVspoof. Toutefois, ces benchmarks précédents ne prennent pas en compte la grande variabilité observée dans les conditions réelles d’usage. Les taux d’erreur rapportés sont-ils réalistes dans un contexte réel ? Pour évaluer les modes de défaillance des détecteurs et leur robustesse face à des décalages contrôlés de distribution, nous introduisons ShiftySpeech, un benchmark comprenant plus de 3000 heures de parole synthétique provenant de 7 domaines, 6 systèmes de TTS (Text-to-Speech), 12 vocodeurs et 3 langues. Nous avons constaté que tous les décalages de distribution entraînaient une dégradation des performances des modèles. Contrairement aux résultats antérieurs, former sur un plus grand nombre de vocodeurs, de locuteurs ou en utilisant des augmentations de données ne garantissait pas une meilleure généralisation. En réalité, nous avons observé que former sur des données moins diversifiées pouvait conduire à une meilleure généralisation. En particulier, un détecteur entraîné uniquement sur des échantillons provenant d’un seul vocodeur soigneusement sélectionné et d’un petit nombre de locuteurs, sans aucune augmentation de données, a atteint des résultats de pointe sur le benchmark exigeant In-the-Wild.
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.