HyperAIHyperAI
vor 2 Monaten

Sprachverbesserung und Entfernung von Echo mit diffusionsbasierten generativen Modellen

Julius Richter; Simon Welker; Jean-Marie Lemercier; Bunlong Lay; Timo Gerkmann
Sprachverbesserung und Entfernung von Echo mit diffusionsbasierten generativen Modellen
Abstract

In dieser Arbeit bauen wir auf unserer vorherigen Veröffentlichung auf und verwenden diffusionsbasierte generative Modelle zur Sprachverbesserung. Wir präsentieren eine detaillierte Übersicht des Diffusionsprozesses, der auf einer stochastischen Differentialgleichung basiert, und gehen auf eine umfangreiche theoretische Untersuchung seiner Implikationen ein. Im Gegensatz zu üblichen bedingten Generierungsaufgaben starten wir den Rückwärtsprozess nicht von reinem Gaußschen Rauschen, sondern von einer Mischung aus rauschiger Sprache und Gaußschem Rauschen. Dies entspricht unserem Vorwärtsprozess, der durch Hinzufügen eines Driftterms von klarer Sprache zu rauschiger Sprache übergeht. Wir zeigen, dass dieses Verfahren es ermöglicht, hochwertige Schätzungen von klarer Sprache mit nur 30 Diffusionsschritten zu generieren. Durch Anpassung der Netzwerkarchitektur können wir die Leistungsfähigkeit der Sprachverbesserung erheblich verbessern, was darauf hindeutet, dass das Netzwerk und nicht das formale Modell die Hauptbegrenzung unseres ursprünglichen Ansatzes war. In einer umfangreichen Kreuzdatensatzauswertung zeigen wir, dass die verbesserte Methode mit aktuellen diskriminativen Modellen konkurrieren kann und eine bessere Generalisierung erzielt, wenn sie auf einem anderen Korpus als dem für das Training verwendeten evaluiert wird. Wir ergänzen die Ergebnisse durch eine instrumentelle Auswertung unter Verwendung realer rauschiger Aufnahmen und einem Hörexpperiment, in dem unsere vorgeschlagene Methode als beste bewertet wird. Die Untersuchung verschiedener Sampler-Konfigurationen zur Lösung des Rückwärtsprozesses ermöglicht es uns, die Leistungsfähigkeit und die Rechengeschwindigkeit der vorgeschlagenen Methode auszugleichen. Darüber hinaus zeigen wir, dass die vorgeschlagene Methode auch für die Entfernung von Hall (Dereverberation) geeignet ist und somit nicht nur auf die Beseitigung additiven Hintergrundrauschens beschränkt ist. Der Quellcode und Audibeispiele sind online verfügbar: https://github.com/sp-uhh/sgmse