vor 17 Tagen
Ein Modulationsbereichsverlust für neuronale Netzwerke zur Echtzeit-Sprachverbesserung
Tyler Vuong, Yangyang Xia, Richard M. Stern

Abstract
Wir beschreiben eine Modulationsdomänen-Verlustfunktion für tiefen Lern-basierte Sprachverbesserungssysteme. Lernbare spektro-temporale Reizfelder (STRFs) wurden angepasst, um eine Sprecheridentifikationsaufgabe zu optimieren. Die gelernten STRFs wurden anschließend verwendet, um einen gewichteten mittleren quadratischen Fehler (MSE) in der Modulationsdomäne zur Trainingsphase eines Sprachverbesserungssystems zu berechnen. Experimente zeigten, dass die Hinzufügung des Modulationsdomänen-MSE zum MSE in der spektro-temporalen Domäne die objektive Vorhersage von Sprachqualität und Verständlichkeit für Echtzeit-Sprachverbesserungssysteme erheblich verbesserte, ohne zusätzlichen Rechenaufwand während der Inferenz zu verursachen.