il y a 17 jours

Amélioration des modèles acoustiques de parole creuse non supervisés grâce à la reparamétrisation catégorielle

Benjamin Milde, Chris Biemann

Résumé

Le modèle Sparsespeech est un modèle acoustique non supervisé capable de générer des pseudo-étiquettes discrètes pour des paroles non transcrites. Nous étendons le modèle Sparsespeech afin de permettre l’échantillonnage à partir d’une variable discrète aléatoire, ce qui donne lieu à des pseudo-posteriorgrams. Le degré de densité de ces posteriorgrams peut être entièrement contrôlé après l’entraînement du modèle. Nous utilisons la technique du Gumbel-Softmax pour approximer l’échantillonnage à partir d’une distribution discrète au sein du réseau neuronal, ce qui permet d’entraîner efficacement le réseau par rétropropagation standard. Le modèle amélioré est entraîné et évalué sur le corpus Libri-Light, un benchmark pour la reconnaissance automatique de la parole (ASR) avec une supervision limitée ou nulle. Le modèle est entraîné sur 600 heures et 6000 heures de parole lue en anglais. Nous évaluons le modèle amélioré à l’aide de la mesure d’erreur ABX et dans un cadre semi-supervisé utilisant 10 heures de parole transcrite. Nous observons une amélioration relative allant jusqu’à 31,4 % sur les taux d’erreur ABX entre locuteurs sur l’ensemble de test, avec 600 heures de données vocales, et des améliorations supplémentaires lorsque le modèle est échelonné à 6000 heures.