HyperAIHyperAI

Command Palette

Search for a command to run...

Modèles linguistiques vocaux pré-entraînés textuellement

Résumé

Les modèles linguistiques vocaux (SpeechLMs) traitent et génèrent uniquement des données acoustiques, sans supervision textuelle. Dans ce travail, nous proposons TWIST, une méthode d'entraînement des SpeechLMs basée sur un démarrage progressif à partir d'un modèle linguistique préentraîné sur texte. Nous démontrons, à l'aide d'évaluations automatiques et humaines, que TWIST surpasse de manière systématique un SpeechLM entraîné à partir d'une initialisation froide. Nous analysons empiriquement l'impact de différentes choix architecturaux, tels que le tokeniseur vocal, le modèle linguistique préentraîné sur texte, ainsi que la taille du jeu de données. Nous constatons que l'échelle du modèle et celle du jeu de données jouent tous deux un rôle crucial dans la construction de SpeechLMs performants. À partir de nos observations, nous présentons le plus grand SpeechLM (à notre connaissance) en termes à la fois de nombre de paramètres et de volume de données d'entraînement. Nous introduisons également deux versions parlées du benchmark textual StoryCloze, afin d'améliorer l'évaluation des modèles et de stimuler les recherches futures dans ce domaine. Nous mettons à disposition publiquement des échantillons audio, le code source et les modèles : https://pages.cs.huji.ac.il/adiyoss-lab/twist/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modèles linguistiques vocaux pré-entraînés textuellement | Articles | HyperAI