il y a 2 mois

Réseaux neuronaux vectoriels quantifiés pour la découverte d'unités acoustiques dans le défi ZeroSpeech 2020

Benjamin van Niekerk; Leanne Nortje; Herman Kamper

Résumé

Dans cet article, nous explorons la quantification vectorielle pour la découverte d'unités acoustiques. En utilisant des données non étiquetées, notre objectif est d'apprendre des représentations discrètes de la parole qui séparent le contenu phonétique des détails spécifiques à l'orateur. Nous proposons deux modèles neuronaux pour relever ce défi : tous deux utilisent la quantification vectorielle pour mapper les caractéristiques continues à un ensemble fini de codes. Le premier modèle est une variante de l'autoencodeur variationnel quantifié vectoriellement (VQ-VAE). Le VQ-VAE encode la parole en une séquence d'unités discrètes avant de reconstruire le signal audio. Notre deuxième modèle combine la quantification vectorielle avec le codage prédictif contrastif (VQ-CPC). L'idée est d'apprendre une représentation de la parole en prédissant les unités acoustiques futures. Nous évaluons ces modèles sur des données en anglais et en indonésien dans le cadre du défi ZeroSpeech 2020. Dans les tests de discrimination phonétique ABX, les deux modèles surpassent toutes les soumissions aux défis de 2019 et 2020, avec une amélioration relative supérieure à 30 %. Les modèles se montrent également compétitifs sur une tâche de conversion vocale en aval. Parmi les deux, le VQ-CPC se distingue légèrement mieux dans l'ensemble et est plus simple et rapide à entraîner. Enfin, des expériences de sondage montrent que la quantification vectorielle constitue un goulot d'étranglement efficace, obligeant les modèles à éliminer les informations liées à l'orateur.