MMSpeech : Pré-entraînement encodeur-décodeur multi-modal et multi-tâches pour la reconnaissance vocale

Dans cet article, nous proposons un nouveau cadre pré-entraînement encodage-décodage multi-modale et multi-tâche (MMSpeech) pour la reconnaissance automatique de la parole mandarin (ASR), qui exploite à la fois des données non étiquetées de parole et de texte. La principale difficulté du pré-entraînement conjoint de la parole et du texte provient de la différence significative entre les modalités de parole et de texte, particulièrement dans le cas du mandarin. Contrairement à l’anglais et à d’autres langues utilisant un système d’écriture alphabétique, le mandarin repose sur un système d’écriture idéographique, dans lequel la correspondance entre les caractères et les sons n’est pas étroite. Ainsi, nous proposons d’introduire la modalité phonétique dans le processus de pré-entraînement, afin de capturer des informations invariantes par rapport à la modalité entre la parole et le texte mandarins. Plus précisément, nous mettons en œuvre un cadre d’apprentissage multi-tâche incluant cinq tâches à la fois auto-supervisées et supervisées, utilisant des données de parole et de texte. Pour le pré-entraînement end-to-end, nous introduisons deux tâches auto-supervisées : la conversion de la parole en pseudo-codes (S2C) et la conversion des phonèmes en texte (P2T), en exploitant des données non étiquetées de parole et de texte ; les paires parole-pseudo-codes et phonème-texte complètent ainsi les paires supervisionnées parole-texte. Pour améliorer l’apprentissage des représentations de parole par l’encodeur, nous introduisons deux autres tâches : la prédiction auto-supervisée de la parole masquée (MSP) et la prédiction supervisée des phonèmes (PP), afin de modéliser la correspondance entre la parole et les phonèmes. En outre, nous intégrons directement la tâche supervisée de reconnaissance de la parole vers le texte (S2T) dans le processus de pré-entraînement, ce qui améliore davantage les performances du pré-entraînement et permet d’obtenir de meilleurs résultats de reconnaissance, même sans adaptation fine (fine-tuning). Des expériences sur le corpus AISHELL-1 montrent que notre méthode atteint des performances de pointe, avec une amélioration relative de plus de 40 % par rapport aux autres méthodes de pré-entraînement.