HyperAIHyperAI

Command Palette

Search for a command to run...

Bedingtes Diffusions-Wahrscheinlichkeitsmodell für Sprachverbesserung

Yen-Ju Lu Zhong-Qiu Wang Shinji Watanabe Alexander Richard Cheng Yu Yu Tsao

Zusammenfassung

Sprachverbesserung ist eine entscheidende Komponente vieler anwenderorientierter Audioanwendungen, dennoch leiden derzeitige Systeme weiterhin unter verzerrten und unnatürlichen Ausgaben. Obwohl generative Modelle ein großes Potenzial in der Sprachsynthese gezeigt haben, hinken sie in der Sprachverbesserung noch hinterher. In dieser Arbeit nutzt man neuere Fortschritte bei Diffusionswahrscheinlichkeitsmodellen und stellt einen neuartigen Algorithmus zur Sprachverbesserung vor, der Merkmale des beobachteten geräuschen Sprachsignals in die Diffusions- und Rückwärtsprozesse integriert. Genauer gesagt, schlagen wir eine verallgemeinerte Formulierung des Diffusionswahrscheinlichkeitsmodells vor, das wir bedingtes Diffusionswahrscheinlichkeitsmodell nennen, welches im Rückwärtsprozess in der Lage ist, sich an nicht-gaußförmige echte Störungen im geschätzten Sprachsignal anzupassen. In unseren Experimenten zeigen wir eine herausragende Leistung des vorgeschlagenen Ansatzes im Vergleich zu repräsentativen generativen Modellen und untersuchen die Generalisierungsfähigkeit unserer Modelle auf andere Datensätze mit während des Trainings nicht gesehenen Rauschcharakteristika.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Bedingtes Diffusions-Wahrscheinlichkeitsmodell für Sprachverbesserung | Paper | HyperAI