HyperAIHyperAI

Command Palette

Search for a command to run...

Untersuchung der optimalen Verlustfunktion für DNN-basierte, niedrigverzögernde Sprachverbesserung mit zeitlichen Faltungsnetzwerken

Yuichiro Koyama Tyler Vuong Stefan Uhlich Bhiksha Raj

Zusammenfassung

In jüngster Zeit wurden tiefe neuronale Netze (DNNs) erfolgreich für die Sprachverbesserung eingesetzt, und die DNN-basierte Sprachverbesserung entwickelt sich zu einem attraktiven Forschungsfeld. Während in den letzten Jahren Zeit-Frequenz-Masking-Verfahren auf Basis der kurzzeitigen Fourier-Transformation (STFT) weithin für DNN-basierte Sprachverbesserung verwendet wurden, wurden auch zeitbereichsbasierte Ansätze wie das Time-Domain Audio Separation Network (TasNet) vorgeschlagen. Die jeweils geeignetste Methode hängt von der Größe des Datensatzes und der Art der Aufgabe ab. In diesem Paper untersuchen wir den besten Algorithmus zur Sprachverbesserung an zwei unterschiedlichen Datensätzen. Wir stellen eine STFT-basierte Methode sowie eine Verlustfunktion unter Verwendung von problemunabhängigen Sprachencoder-(PASE-)Merkmale vor, um die subjektive Qualität auf dem kleineren Datensatz zu verbessern. Unsere vorgeschlagenen Ansätze erzielen auf dem Voice Bank + DEMAND-Datensatz überzeugende Ergebnisse und schlagen andere state-of-the-art-Methoden. Zudem implementieren wir eine niedrigverzögerungsfähige Version von TasNet, die wir im Rahmen der DNS Challenge eingereicht und durch Open-Sourcing öffentlich gemacht haben. Unser Modell erreicht hervorragende Leistung auf dem DNS Challenge-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Untersuchung der optimalen Verlustfunktion für DNN-basierte, niedrigverzögernde Sprachverbesserung mit zeitlichen Faltungsnetzwerken | Paper | HyperAI