HyperAIHyperAI

Command Palette

Search for a command to run...

Moins, c’est plus pour la détection de la parole synthétique dans le monde réel

Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg

Résumé

Porté par les progrès de l’apprentissage non supervisé pour le langage parlé, les détecteurs de paroles synthétiques de pointe ont atteint des taux d’erreur très faibles sur des benchmarks populaires tels qu’ASVspoof. Toutefois, ces benchmarks précédents ne prennent pas en compte la grande variabilité observée dans les conditions réelles d’usage. Les taux d’erreur rapportés sont-ils réalistes dans un contexte réel ? Pour évaluer les modes de défaillance des détecteurs et leur robustesse face à des décalages contrôlés de distribution, nous introduisons ShiftySpeech, un benchmark comprenant plus de 3000 heures de parole synthétique provenant de 7 domaines, 6 systèmes de TTS (Text-to-Speech), 12 vocodeurs et 3 langues. Nous avons constaté que tous les décalages de distribution entraînaient une dégradation des performances des modèles. Contrairement aux résultats antérieurs, former sur un plus grand nombre de vocodeurs, de locuteurs ou en utilisant des augmentations de données ne garantissait pas une meilleure généralisation. En réalité, nous avons observé que former sur des données moins diversifiées pouvait conduire à une meilleure généralisation. En particulier, un détecteur entraîné uniquement sur des échantillons provenant d’un seul vocodeur soigneusement sélectionné et d’un petit nombre de locuteurs, sans aucune augmentation de données, a atteint des résultats de pointe sur le benchmark exigeant In-the-Wild.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Moins, c’est plus pour la détection de la parole synthétique dans le monde réel | Articles | HyperAI