CleanUNet 2: Ein hybrides Sprach-Rauschunterdrückungsmodell auf Wellenform und Spektrogramm

In dieser Arbeit präsentieren wir CleanUNet 2, einen Sprachrauschunterdrückungsmodell, das die Vorteile von Wellenform- und Spektrogramm-Rauschunterdrückern vereint und somit das Beste aus beiden Welten erreicht. CleanUNet 2 basiert auf einem zweistufigen Rahmenwerk, das sich an etablierten Methoden der Sprachsynthese orientiert, die aus einem Wellenformmodell und einem Spektrogrammmodell bestehen. Insbesondere baut CleanUNet 2 auf CleanUNet auf, dem derzeit fortschrittlichsten Wellenform-Rauschunterdrückungsmodell, und steigert dessen Leistung weiterhin, indem es vorhergesagte Spektrogramme eines Spektrogramm-Rauschunterdrückungsmodells als Eingabe nutzt. Wir zeigen, dass CleanUNet 2 gegenüber früheren Ansätzen in Bezug auf verschiedene objektive und subjektive Bewertungskriterien überlegen ist.