HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration des modèles acoustiques de parole creuse non supervisés grâce à la reparamétrisation catégorielle

Benjamin Milde Chris Biemann

Résumé

Le modèle Sparsespeech est un modèle acoustique non supervisé capable de générer des pseudo-étiquettes discrètes pour des paroles non transcrites. Nous étendons le modèle Sparsespeech afin de permettre l’échantillonnage à partir d’une variable discrète aléatoire, ce qui donne lieu à des pseudo-posteriorgrams. Le degré de densité de ces posteriorgrams peut être entièrement contrôlé après l’entraînement du modèle. Nous utilisons la technique du Gumbel-Softmax pour approximer l’échantillonnage à partir d’une distribution discrète au sein du réseau neuronal, ce qui permet d’entraîner efficacement le réseau par rétropropagation standard. Le modèle amélioré est entraîné et évalué sur le corpus Libri-Light, un benchmark pour la reconnaissance automatique de la parole (ASR) avec une supervision limitée ou nulle. Le modèle est entraîné sur 600 heures et 6000 heures de parole lue en anglais. Nous évaluons le modèle amélioré à l’aide de la mesure d’erreur ABX et dans un cadre semi-supervisé utilisant 10 heures de parole transcrite. Nous observons une amélioration relative allant jusqu’à 31,4 % sur les taux d’erreur ABX entre locuteurs sur l’ensemble de test, avec 600 heures de données vocales, et des améliorations supplémentaires lorsque le modèle est échelonné à 6000 heures.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp