HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Moins, c’est plus pour la détection de la parole synthétique dans le monde réel

{Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg}

Moins, c’est plus pour la détection de la parole synthétique dans le monde réel

Résumé

Porté par les progrès de l’apprentissage non supervisé pour le langage parlé, les détecteurs de paroles synthétiques de pointe ont atteint des taux d’erreur très faibles sur des benchmarks populaires tels qu’ASVspoof. Toutefois, ces benchmarks précédents ne prennent pas en compte la grande variabilité observée dans les conditions réelles d’usage. Les taux d’erreur rapportés sont-ils réalistes dans un contexte réel ? Pour évaluer les modes de défaillance des détecteurs et leur robustesse face à des décalages contrôlés de distribution, nous introduisons ShiftySpeech, un benchmark comprenant plus de 3000 heures de parole synthétique provenant de 7 domaines, 6 systèmes de TTS (Text-to-Speech), 12 vocodeurs et 3 langues. Nous avons constaté que tous les décalages de distribution entraînaient une dégradation des performances des modèles. Contrairement aux résultats antérieurs, former sur un plus grand nombre de vocodeurs, de locuteurs ou en utilisant des augmentations de données ne garantissait pas une meilleure généralisation. En réalité, nous avons observé que former sur des données moins diversifiées pouvait conduire à une meilleure généralisation. En particulier, un détecteur entraîné uniquement sur des échantillons provenant d’un seul vocodeur soigneusement sélectionné et d’un petit nombre de locuteurs, sans aucune augmentation de données, a atteint des résultats de pointe sur le benchmark exigeant In-the-Wild.

Dépôts de code

Ashigarg123/ShiftySpeech
Officiel
pytorch
Mentionné dans GitHub

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Moins, c’est plus pour la détection de la parole synthétique dans le monde réel | Articles de recherche | HyperAI