il y a 6 mois

Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg

Résumé

Porté par les progrès de l’apprentissage non supervisé pour le langage parlé, les détecteurs de paroles synthétiques de pointe ont atteint des taux d’erreur très faibles sur des benchmarks populaires tels qu’ASVspoof. Toutefois, ces benchmarks précédents ne prennent pas en compte la grande variabilité observée dans les conditions réelles d’usage. Les taux d’erreur rapportés sont-ils réalistes dans un contexte réel ? Pour évaluer les modes de défaillance des détecteurs et leur robustesse face à des décalages contrôlés de distribution, nous introduisons ShiftySpeech, un benchmark comprenant plus de 3000 heures de parole synthétique provenant de 7 domaines, 6 systèmes de TTS (Text-to-Speech), 12 vocodeurs et 3 langues. Nous avons constaté que tous les décalages de distribution entraînaient une dégradation des performances des modèles. Contrairement aux résultats antérieurs, former sur un plus grand nombre de vocodeurs, de locuteurs ou en utilisant des augmentations de données ne garantissait pas une meilleure généralisation. En réalité, nous avons observé que former sur des données moins diversifiées pouvait conduire à une meilleure généralisation. En particulier, un détecteur entraîné uniquement sur des échantillons provenant d’un seul vocodeur soigneusement sélectionné et d’un petit nombre de locuteurs, sans aucune augmentation de données, a atteint des résultats de pointe sur le benchmark exigeant In-the-Wild.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Text-to-Speech

Synthèse

Traitement Audio Et Vocal

Générique

Audio

Tâche

Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Text-to-Speech

Synthèse

Traitement Audio Et Vocal

Générique

Audio

Tâche

Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Moins, c’est plus pour la détection de la parole synthétique dans le monde réel | Articles | HyperAI

Command Palette

Moins, c’est plus pour la détection de la parole synthétique dans le monde réel

Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Moins, c’est plus pour la détection de la parole synthétique dans le monde réel

Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Moins, c’est plus pour la détection de la parole synthétique dans le monde réel

Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters