il y a 2 mois

Dernier : Tokenisation de la parole avec prise en compte du modèle linguistique

Arnon Turetzky; Yossi Adi

Résumé

La tokenisation de la parole constitue la base des modèles de langage parlé (LM), leur permettant d'effectuer diverses tâches telles que le modèle de langage parlé, la synthèse vocale (text-to-speech) et la reconnaissance vocale (speech-to-text). La plupart des tokeniseurs de parole sont formés indépendamment du processus d'entraînement des modèles de langage, en s'appuyant sur des modèles acoustiques distincts et des méthodes de quantification. Cette approche peut entraîner un décalage entre le processus de tokenisation et son utilisation ultérieure. Dans cette étude, nous proposons une nouvelle méthode pour l'entraînement d'un tokeniseur de parole en utilisant les objectifs issus de modèles de langage textuel pré-entraînés. Nous prônons l'intégration de cet objectif dans le processus d'apprentissage des représentations discrètes de la parole. Notre objectif est de transformer les caractéristiques issues d'un modèle de parole pré-entraîné dans un nouvel espace de caractéristiques qui favorise une meilleure classification pour les modèles de langage parlé. Nous examinons empiriquement l'impact de divers choix conceptuels du modèle, notamment la taille du vocabulaire vocal et la taille du modèle de langage textuel. Nos résultats montrent que la méthode de tokenisation proposée surpasse les lignes directrices évaluées en termes tant de modèle de langage parlé que de reconnaissance vocale. Plus important encore, contrairement aux travaux antérieurs, notre méthode permet l'utilisation d'un seul modèle de langage pré-entraîné pour traiter à la fois les entrées vocales et textuelles, ce qui la distingue des approches traditionnelles de tokenisation.