Pré-entraînement de modèle de parole pour la compréhension linguistique orale de bout en bout

Alors que les systèmes conventionnels de compréhension du langage parlé (SLU) transforment d'abord la parole en texte, puis le texte en intention, les systèmes SLU de bout en bout cartographient directement la parole à l'intention à travers un seul modèle entraînable. Atteindre une haute précision avec ces modèles de bout en bout sans une grande quantité de données d'entraînement est difficile. Nous proposons une méthode pour réduire les exigences en données des systèmes SLU de bout en bout, dans laquelle le modèle est d'abord pré-entraîné pour prédire des mots et des phonèmes, permettant ainsi d'apprendre de bonnes caractéristiques pour la SLU. Nous présentons un nouveau jeu de données SLU, Fluent Speech Commands, et montrons que notre méthode améliore les performances tant lorsque l'ensemble du jeu de données est utilisé pour l'entraînement que lorsque seule une petite partie est utilisée. Nous décrivons également des expériences préliminaires visant à évaluer la capacité du modèle à généraliser à de nouvelles phrases non entendues lors de l'entraînement.