HyperAIHyperAI
il y a 9 jours

Modélisation générative de langage parlé consciente de la prosodie sans texte

Eugene Kharitonov, Ann Lee, Adam Polyak, Yossi Adi, Jade Copet, Kushal Lakhotia, Tu-Anh Nguyen, Morgane Rivière, Abdelrahman Mohamed, Emmanuel Dupoux, Wei-Ning Hsu
Modélisation générative de langage parlé consciente de la prosodie sans texte
Résumé

La pré-formation de parole a principalement démontré son efficacité sur des tâches de classification, tandis que sa capacité à générer de nouvelles utterances, similaire à celle de GPT-2 qui produit des paragraphes cohérents, a été très peu explorée. Le Modélisation Langagière Parlée Générative (GSLM) \cite{Lakhotia2021} constitue le seul travail antérieur s'intéressant aux aspects génératifs de la pré-formation vocale, en remplaçant le texte par des unités phonétiques découvertes pour la modélisation linguistique, et en montrant la capacité à générer des phrases nouvelles et significatives. Malheureusement, malgré l'élimination de la nécessité de texte, les unités utilisées dans le GSLM perdent la majeure partie des informations prosodiques. Ainsi, le GSLM ne parvient pas à exploiter la prosodie pour améliorer la compréhension, ni à produire une parole expressive. Dans ce travail, nous proposons un modèle génératif de langage parlé conscient de la prosodie (pGSLM). Il repose sur un modèle de langage à transformer multi-flux (MS-TLM) pour la parole, représenté par deux flux : un flux d'unités découvertes et un flux de caractéristiques prosodiques, ainsi qu'un modèle HiFi-GAN adapté pour convertir les sorties du MS-TLM en signaux audio. Nous proposons une série de métriques pour la modélisation et la génération de prosodie, tout en réutilisant les métriques du GSLM pour la modélisation du contenu. Les résultats expérimentaux montrent que le pGSLM peut exploiter la prosodie afin d'améliorer à la fois la modélisation de la prosodie et celle du contenu, tout en générant des énoncés naturels, significatifs et cohérents à partir d'un prompt vocal. Des exemples audio sont disponibles à l'adresse https://speechbot.github.io/pgslm. Le code source et les modèles sont accessibles à l'adresse https://github.com/pytorch/fairseq/tree/main/examples/textless_nlp/pgslm.

Modélisation générative de langage parlé consciente de la prosodie sans texte | Articles de recherche récents | HyperAI