Command Palette
Search for a command to run...
Ein Modulationsbereichsverlust für neuronale Netzwerke zur Echtzeit-Sprachverbesserung
Ein Modulationsbereichsverlust für neuronale Netzwerke zur Echtzeit-Sprachverbesserung
Tyler Vuong Yangyang Xia Richard M. Stern
Zusammenfassung
Wir beschreiben eine Modulationsdomänen-Verlustfunktion für tiefen Lern-basierte Sprachverbesserungssysteme. Lernbare spektro-temporale Reizfelder (STRFs) wurden angepasst, um eine Sprecheridentifikationsaufgabe zu optimieren. Die gelernten STRFs wurden anschließend verwendet, um einen gewichteten mittleren quadratischen Fehler (MSE) in der Modulationsdomäne zur Trainingsphase eines Sprachverbesserungssystems zu berechnen. Experimente zeigten, dass die Hinzufügung des Modulationsdomänen-MSE zum MSE in der spektro-temporalen Domäne die objektive Vorhersage von Sprachqualität und Verständlichkeit für Echtzeit-Sprachverbesserungssysteme erheblich verbesserte, ohne zusätzlichen Rechenaufwand während der Inferenz zu verursachen.