il y a 2 mois

Analyse du Champ Récepteur des Réseaux de Convolutions Temporelles pour la Déréverbération de la Parole Monoaurale

William Ravenscroft; Stefan Goetze; Thomas Hain

Résumé

L'élimination de la réverbération dans le discours est souvent une exigence importante dans les tâches de traitement robuste du discours. Les modèles d'apprentissage profond (DL) supervisés offrent des performances de pointe pour l'élimination de la réverbération mono-canal. Les réseaux de neurones à convolution temporelle (TCNs) sont couramment utilisés pour la modélisation séquentielle dans les tâches d'amélioration du discours. Une caractéristique des TCNs est qu'ils possèdent un champ récepteur (RF) dépendant de la configuration spécifique du modèle, ce qui détermine le nombre de trames d'entrée qui peuvent être observées pour produire une trame de sortie individuelle. Il a été démontré que les TCNs sont capables d'effectuer l'élimination de la réverbération sur des données de discours simulées, cependant, une analyse approfondie, en particulier axée sur le RF, fait encore défaut dans la littérature. Cet article analyse les performances d'élimination de la réverbération en fonction de la taille du modèle et du RF des TCNs. Des expériences utilisant le corpus WHAMR, étendu pour inclure des réponses impulsionnelles spatiales (RIRs) avec des valeurs T60 plus importantes, montrent qu'un RF plus large peut améliorer considérablement les performances lors de l'entraînement de modèles TCN plus petits. Il est également démontré que les TCNs bénéficient d'un RF plus large lorsqu'ils éliminent la réverbération des RIRs avec des valeurs RT60 plus importantes.