vor 17 Tagen

Untersuchung der optimalen Verlustfunktion für DNN-basierte, niedrigverzögernde Sprachverbesserung mit zeitlichen Faltungsnetzwerken

Yuichiro Koyama, Tyler Vuong, Stefan Uhlich, Bhiksha Raj

Abstract

In jüngster Zeit wurden tiefe neuronale Netze (DNNs) erfolgreich für die Sprachverbesserung eingesetzt, und die DNN-basierte Sprachverbesserung entwickelt sich zu einem attraktiven Forschungsfeld. Während in den letzten Jahren Zeit-Frequenz-Masking-Verfahren auf Basis der kurzzeitigen Fourier-Transformation (STFT) weithin für DNN-basierte Sprachverbesserung verwendet wurden, wurden auch zeitbereichsbasierte Ansätze wie das Time-Domain Audio Separation Network (TasNet) vorgeschlagen. Die jeweils geeignetste Methode hängt von der Größe des Datensatzes und der Art der Aufgabe ab. In diesem Paper untersuchen wir den besten Algorithmus zur Sprachverbesserung an zwei unterschiedlichen Datensätzen. Wir stellen eine STFT-basierte Methode sowie eine Verlustfunktion unter Verwendung von problemunabhängigen Sprachencoder-(PASE-)Merkmale vor, um die subjektive Qualität auf dem kleineren Datensatz zu verbessern. Unsere vorgeschlagenen Ansätze erzielen auf dem Voice Bank + DEMAND-Datensatz überzeugende Ergebnisse und schlagen andere state-of-the-art-Methoden. Zudem implementieren wir eine niedrigverzögerungsfähige Version von TasNet, die wir im Rahmen der DNS Challenge eingereicht und durch Open-Sourcing öffentlich gemacht haben. Unser Modell erreicht hervorragende Leistung auf dem DNS Challenge-Datensatz.