Bedingtes Diffusions-Wahrscheinlichkeitsmodell für Sprachverbesserung

Sprachverbesserung ist eine entscheidende Komponente vieler anwenderorientierter Audioanwendungen, dennoch leiden derzeitige Systeme weiterhin unter verzerrten und unnatürlichen Ausgaben. Obwohl generative Modelle ein großes Potenzial in der Sprachsynthese gezeigt haben, hinken sie in der Sprachverbesserung noch hinterher. In dieser Arbeit nutzt man neuere Fortschritte bei Diffusionswahrscheinlichkeitsmodellen und stellt einen neuartigen Algorithmus zur Sprachverbesserung vor, der Merkmale des beobachteten geräuschen Sprachsignals in die Diffusions- und Rückwärtsprozesse integriert. Genauer gesagt, schlagen wir eine verallgemeinerte Formulierung des Diffusionswahrscheinlichkeitsmodells vor, das wir bedingtes Diffusionswahrscheinlichkeitsmodell nennen, welches im Rückwärtsprozess in der Lage ist, sich an nicht-gaußförmige echte Störungen im geschätzten Sprachsignal anzupassen. In unseren Experimenten zeigen wir eine herausragende Leistung des vorgeschlagenen Ansatzes im Vergleich zu repräsentativen generativen Modellen und untersuchen die Generalisierungsfähigkeit unserer Modelle auf andere Datensätze mit während des Trainings nicht gesehenen Rauschcharakteristika.