HyperAIHyperAI
il y a 3 mois

PoCoNet : Une amélioration de la restauration vocale grâce aux embeddings fréquence-positionnels, aux données conversationnelles semi-supervisées et à une fonction de perte biaisée

Umut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim Helwani, Arvindh Krishnaswamy
PoCoNet : Une amélioration de la restauration vocale grâce aux embeddings fréquence-positionnels, aux données conversationnelles semi-supervisées et à une fonction de perte biaisée
Résumé

Les applications basées sur les réseaux de neurones profitent généralement de modèles de plus grande taille, mais pour les modèles actuels d’amélioration de la parole, une augmentation de l’échelle des réseaux entraîne souvent une réduction de la robustesse face à la diversité des cas d’utilisation réels, en dehors des données rencontrées durant l’entraînement. Nous proposons plusieurs innovations permettant de concevoir des grands réseaux de neurones plus performants pour l’amélioration de la parole. L’architecture novatrice PoCoNet est un réseau de neurones convolutif qui, grâce à l’utilisation d’embeddings positionnels en fréquence, parvient à construire de manière plus efficace des caractéristiques dépendantes de la fréquence dès les premières couches. Une méthode semi-supervisée permet d’accroître le volume des données d’entraînement conversationnelles en pré-améliorant des jeux de données bruités, ce qui améliore les performances sur des enregistrements réels. Une nouvelle fonction de perte, biaisée en faveur de la préservation de la qualité de la parole, aide l’optimisation à mieux correspondre aux opinions perceptives humaines concernant la qualité de la parole. Des expériences d’ablation ainsi que des évaluations objectives et subjectives menées par des juges humains démontrent clairement les avantages apportés par les améliorations proposées.