vor 6 Monaten

Zusammenfassung

Sprachverbesserung ist eine entscheidende Komponente vieler anwenderorientierter Audioanwendungen, dennoch leiden derzeitige Systeme weiterhin unter verzerrten und unnatürlichen Ausgaben. Obwohl generative Modelle ein großes Potenzial in der Sprachsynthese gezeigt haben, hinken sie in der Sprachverbesserung noch hinterher. In dieser Arbeit nutzt man neuere Fortschritte bei Diffusionswahrscheinlichkeitsmodellen und stellt einen neuartigen Algorithmus zur Sprachverbesserung vor, der Merkmale des beobachteten geräuschen Sprachsignals in die Diffusions- und Rückwärtsprozesse integriert. Genauer gesagt, schlagen wir eine verallgemeinerte Formulierung des Diffusionswahrscheinlichkeitsmodells vor, das wir bedingtes Diffusionswahrscheinlichkeitsmodell nennen, welches im Rückwärtsprozess in der Lage ist, sich an nicht-gaußförmige echte Störungen im geschätzten Sprachsignal anzupassen. In unseren Experimenten zeigen wir eine herausragende Leistung des vorgeschlagenen Ansatzes im Vergleich zu repräsentativen generativen Modellen und untersuchen die Generalisierungsfähigkeit unserer Modelle auf andere Datensätze mit während des Trainings nicht gesehenen Rauschcharakteristika.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Diffusionsmodell

Audio- Und Sprachverarbeitung

Yen-Ju Lu Zhong-Qiu Wang Shinji Watanabe Alexander Richard Cheng Yu Yu Tsao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Diffusionsmodell

Audio- Und Sprachverarbeitung

Yen-Ju Lu Zhong-Qiu Wang Shinji Watanabe Alexander Richard Cheng Yu Yu Tsao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Bedingtes Diffusions-Wahrscheinlichkeitsmodell für Sprachverbesserung

Yen-Ju Lu Zhong-Qiu Wang Shinji Watanabe Alexander Richard Cheng Yu Yu Tsao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Bedingtes Diffusions-Wahrscheinlichkeitsmodell für Sprachverbesserung

Yen-Ju Lu Zhong-Qiu Wang Shinji Watanabe Alexander Richard Cheng Yu Yu Tsao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Bedingtes Diffusions-Wahrscheinlichkeitsmodell für Sprachverbesserung

Yen-Ju Lu Zhong-Qiu Wang Shinji Watanabe Alexander Richard Cheng Yu Yu Tsao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters