HyperAIHyperAI

Command Palette

Search for a command to run...

Utilisation de la synthèse vocale pour former des modèles d’understanding linguistique parlé end-to-end

Loren Lugosch Brett Meyer Derek Nowrouzezahrai Mirco Ravanelli

Résumé

Les modèles end-to-end constituent une nouvelle approche prometteuse pour la compréhension du langage parlé (SLU), dans laquelle le sens d’un énoncé est inféré directement à partir de l’audio brut, sans recourir au pipeline classique composé d’un reconnaissait de parole et d’un module de compréhension du langage naturel entraînés séparément. Le principal inconvénient des modèles end-to-end pour la SLU réside dans le fait qu’un ensemble de données d’entraînement issu de paroles réelles, spécifiques au domaine, doit être collecté pour entraîner le modèle. Dans cet article, nous proposons une stratégie visant à surmonter cette contrainte, en utilisant la synthèse vocale pour générer un grand ensemble de données d’entraînement synthétiques à partir de plusieurs locuteurs artificiels. Des expériences menées sur deux jeux de données open source pour la SLU confirment l’efficacité de notre approche, tant comme source unique de données d’entraînement que comme méthode d’augmentation de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp