HyperAIHyperAI
vor 17 Tagen

Untersuchung von Trainingszielen für generative Sprachverbesserung

Julius Richter, Danilo de Oliveira, Timo Gerkmann
Untersuchung von Trainingszielen für generative Sprachverbesserung
Abstract

Generative Speech Enhancement hat in letzter Zeit vielversprechende Fortschritte bei der Verbesserung der Sprachqualität in lautstarken Umgebungen gezeigt. Mehrere auf Diffusion basierende Frameworks existieren, wobei jeder unterschiedliche Trainingsziele und Lernstrategien verwendet. In diesem Artikel zielen wir darauf ab, die Unterschiede zwischen diesen Frameworks zu erklären, indem wir unsere Untersuchung auf score-basierte generative Modelle und die Schrödinger-Brücke konzentrieren. Wir führen eine Reihe umfassender Experimente durch, um deren Leistung zu vergleichen und unterschiedliche Trainingsverhalten aufzuzeigen. Darüber hinaus schlagen wir eine neuartige perceptuelle Verlustfunktion vor, die speziell für das Schrödinger-Brücke-Framework entwickelt wurde, und zeigen eine verbesserte Leistung sowie eine höhere perceptuelle Qualität der verbesserten Sprachsignale. Alle experimentellen Codes und vortrainierten Modelle sind öffentlich verfügbar, um weitere Forschung und Entwicklung in diesem Bereich zu fördern.