HyperAIHyperAI

Command Palette

Search for a command to run...

Spirit LM : Modèle de Langage Mixte Parlé et Écrit

Résumé

Nous introduisons Spirit LM, un modèle fondamental multimodal linguistique capable de mélanger librement texte et parole. Notre modèle repose sur un modèle pré-entraîné de langage textuel de 7 milliards de paramètres, auquel nous étendons la modalité parole par une formation continue sur des unités textuelles et parlées. Les séquences de texte et de parole sont concaténées en un seul flux de tokens, et entraînées à l’aide d’une méthode d’interlacement au niveau des mots, à partir d’un petit corpus parallèle texte-parole automatiquement curaté. Spirit LM est disponible en deux versions : une version Base utilisant des unités phonétiques de parole (HuBERT), et une version Expressive qui modélise l’expressivité grâce à des unités de hauteur de voix (pitch) et de style, en plus des unités phonétiques. Pour les deux versions, le texte est encodé à l’aide de tokens submotifs BPE. Le modèle résultant combine à la fois les capacités sémantiques des modèles textuels et les capacités expressives des modèles parlés. En outre, nous démontrons que Spirit LM est capable d’apprendre de nouvelles tâches de manière few-shot à travers les modalités (par exemple : reconnaissance automatique de la parole, synthèse de parole, classification de la parole). Nous mettons à disposition les poids du modèle ainsi que le code d’inférence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp