Utilisation de la synthèse vocale pour former des modèles d’understanding linguistique parlé end-to-end

Les modèles end-to-end constituent une nouvelle approche prometteuse pour la compréhension du langage parlé (SLU), dans laquelle le sens d’un énoncé est inféré directement à partir de l’audio brut, sans recourir au pipeline classique composé d’un reconnaissait de parole et d’un module de compréhension du langage naturel entraînés séparément. Le principal inconvénient des modèles end-to-end pour la SLU réside dans le fait qu’un ensemble de données d’entraînement issu de paroles réelles, spécifiques au domaine, doit être collecté pour entraîner le modèle. Dans cet article, nous proposons une stratégie visant à surmonter cette contrainte, en utilisant la synthèse vocale pour générer un grand ensemble de données d’entraînement synthétiques à partir de plusieurs locuteurs artificiels. Des expériences menées sur deux jeux de données open source pour la SLU confirment l’efficacité de notre approche, tant comme source unique de données d’entraînement que comme méthode d’augmentation de données.