HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux neuronaux vectoriels quantifiés pour la découverte d'unités acoustiques dans le défi ZeroSpeech 2020

Benjamin van Niekerk Leanne Nortje Herman Kamper

Résumé

Dans cet article, nous explorons la quantification vectorielle pour la découverte d'unités acoustiques. En utilisant des données non étiquetées, notre objectif est d'apprendre des représentations discrètes de la parole qui séparent le contenu phonétique des détails spécifiques à l'orateur. Nous proposons deux modèles neuronaux pour relever ce défi : tous deux utilisent la quantification vectorielle pour mapper les caractéristiques continues à un ensemble fini de codes. Le premier modèle est une variante de l'autoencodeur variationnel quantifié vectoriellement (VQ-VAE). Le VQ-VAE encode la parole en une séquence d'unités discrètes avant de reconstruire le signal audio. Notre deuxième modèle combine la quantification vectorielle avec le codage prédictif contrastif (VQ-CPC). L'idée est d'apprendre une représentation de la parole en prédissant les unités acoustiques futures. Nous évaluons ces modèles sur des données en anglais et en indonésien dans le cadre du défi ZeroSpeech 2020. Dans les tests de discrimination phonétique ABX, les deux modèles surpassent toutes les soumissions aux défis de 2019 et 2020, avec une amélioration relative supérieure à 30 %. Les modèles se montrent également compétitifs sur une tâche de conversion vocale en aval. Parmi les deux, le VQ-CPC se distingue légèrement mieux dans l'ensemble et est plus simple et rapide à entraîner. Enfin, des expériences de sondage montrent que la quantification vectorielle constitue un goulot d'étranglement efficace, obligeant les modèles à éliminer les informations liées à l'orateur.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseaux neuronaux vectoriels quantifiés pour la découverte d'unités acoustiques dans le défi ZeroSpeech 2020 | Articles | HyperAI