HyperAIHyperAI
vor 17 Tagen

Ein Modulationsbereichsverlust für neuronale Netzwerke zur Echtzeit-Sprachverbesserung

Tyler Vuong, Yangyang Xia, Richard M. Stern
Ein Modulationsbereichsverlust für neuronale Netzwerke zur Echtzeit-Sprachverbesserung
Abstract

Wir beschreiben eine Modulationsdomänen-Verlustfunktion für tiefen Lern-basierte Sprachverbesserungssysteme. Lernbare spektro-temporale Reizfelder (STRFs) wurden angepasst, um eine Sprecheridentifikationsaufgabe zu optimieren. Die gelernten STRFs wurden anschließend verwendet, um einen gewichteten mittleren quadratischen Fehler (MSE) in der Modulationsdomäne zur Trainingsphase eines Sprachverbesserungssystems zu berechnen. Experimente zeigten, dass die Hinzufügung des Modulationsdomänen-MSE zum MSE in der spektro-temporalen Domäne die objektive Vorhersage von Sprachqualität und Verständlichkeit für Echtzeit-Sprachverbesserungssysteme erheblich verbesserte, ohne zusätzlichen Rechenaufwand während der Inferenz zu verursachen.

Ein Modulationsbereichsverlust für neuronale Netzwerke zur Echtzeit-Sprachverbesserung | Neueste Forschungsarbeiten | HyperAI