Modèles linguistiques vocaux pré-entraînés textuellement

Les modèles linguistiques vocaux (SpeechLMs) traitent et génèrent uniquement des données acoustiques, sans supervision textuelle. Dans ce travail, nous proposons TWIST, une méthode d'entraînement des SpeechLMs basée sur un démarrage progressif à partir d'un modèle linguistique préentraîné sur texte. Nous démontrons, à l'aide d'évaluations automatiques et humaines, que TWIST surpasse de manière systématique un SpeechLM entraîné à partir d'une initialisation froide. Nous analysons empiriquement l'impact de différentes choix architecturaux, tels que le tokeniseur vocal, le modèle linguistique préentraîné sur texte, ainsi que la taille du jeu de données. Nous constatons que l'échelle du modèle et celle du jeu de données jouent tous deux un rôle crucial dans la construction de SpeechLMs performants. À partir de nos observations, nous présentons le plus grand SpeechLM (à notre connaissance) en termes à la fois de nombre de paramètres et de volume de données d'entraînement. Nous introduisons également deux versions parlées du benchmark textual StoryCloze, afin d'améliorer l'évaluation des modèles et de stimuler les recherches futures dans ce domaine. Nous mettons à disposition publiquement des échantillons audio, le code source et les modèles : https://pages.cs.huji.ac.il/adiyoss-lab/twist/.