il y a 9 jours

Spirit LM : Modèle de Langage Mixte Parlé et Écrit

Tu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad, Sravya Popuri, Christophe Ropers, Paul-Ambroise Duquenne, Robin Algayres, Ruslan Mavlyutov, Itai Gat, Mary Williamson, Gabriel Synnaeve, Juan Pino, Benoit Sagot, Emmanuel Dupoux

Voir les détails de l'article

Spirit LM : Modèle de Langage Mixte Parlé et Écrit

Résumé

Nous introduisons Spirit LM, un modèle fondamental multimodal linguistique capable de mélanger librement texte et parole. Notre modèle repose sur un modèle pré-entraîné de langage textuel de 7 milliards de paramètres, auquel nous étendons la modalité parole par une formation continue sur des unités textuelles et parlées. Les séquences de texte et de parole sont concaténées en un seul flux de tokens, et entraînées à l’aide d’une méthode d’interlacement au niveau des mots, à partir d’un petit corpus parallèle texte-parole automatiquement curaté. Spirit LM est disponible en deux versions : une version Base utilisant des unités phonétiques de parole (HuBERT), et une version Expressive qui modélise l’expressivité grâce à des unités de hauteur de voix (pitch) et de style, en plus des unités phonétiques. Pour les deux versions, le texte est encodé à l’aide de tokens submotifs BPE. Le modèle résultant combine à la fois les capacités sémantiques des modèles textuels et les capacités expressives des modèles parlés. En outre, nous démontrons que Spirit LM est capable d’apprendre de nouvelles tâches de manière few-shot à travers les modalités (par exemple : reconnaissance automatique de la parole, synthèse de parole, classification de la parole). Nous mettons à disposition les poids du modèle ainsi que le code d’inférence.