vor 17 Tagen

Analyse der Varianz von diffusionbasierten Sprachverbesserung

Bunlong Lay, Timo Gerkmann

Abstract

Diffusionsmodelle haben sich als leistungsfähige Ansätze für die generative Sprachverbesserung erwiesen. In jüngsten SGMSE+-Ansätzen wird während des Trainings eine stochastische Differentialgleichung für den Diffusionsprozess verwendet, wobei sowohl Gauß-Rauschen als auch Umgebungsrauschen schrittweise dem sauberen Sprachsignal hinzugefügt werden. Die Leistung der Sprachverbesserung variiert je nach Wahl der stochastischen Differentialgleichung, die die Entwicklung des Mittelwerts und der Varianz entlang des Diffusionsprozesses steuert, wenn Umgebungs- und Gauß-Rauschen hinzugefügt werden. In dieser Arbeit zeigen wir, dass die Skalierung der Varianz ein entscheidender Parameter für die Leistung der Sprachverbesserung ist und dass sie das Gleichgewicht zwischen Rauschunterdrückung und Sprachverzerrungen kontrolliert. Konkret zeigen wir, dass eine größere Varianz die Rauschunterdrückung erhöht und es ermöglicht, den rechnerischen Aufwand zu verringern, da weniger Funktionsauswertungen zur Erzeugung der Schätzung erforderlich sind.