Neuraler Vocoder ist alles, was Sie für die Sprach-Super-Resolution benötigen.

Die Sprach-Super-Resolution (SR) ist eine Aufgabe, bei der die Abtastrate von Sprache durch die Generierung hochfrequenter Komponenten erhöht wird. Bestehende SR-Methoden für Sprache werden in eingeschränkten experimentellen Szenarien trainiert, wie zum Beispiel einem festen Upsampling-Verhältnis. Diese starken Einschränkungen können zu einer schlechten Generalisierungsfähigkeit in unpassenden realen Fällen führen. In dieser Arbeit schlagen wir eine auf einem neuronalen Vocoder basierende Methode zur Sprach-Super-Resolution (NVSR) vor, die verschiedene Eingabeauflösungen und Upsampling-Verhältnisse verarbeiten kann. NVSR besteht aus einem Modul zur Erweiterung des Mel-Bereichs, einem Modul des neuronalen Vocoders und einem Nachbearbeitungsmodul. Unser vorgeschlagenes System erzielt Stand-of-the-Art-Ergebnisse im Mehrsprecher-Benchmark VCTK. Bei einer Zielauflösung von 44,1 kHz übertrifft NVSR WSRGlow und Nu-wave um jeweils 8 % und 37 % in Bezug auf den Logarithmischen Spektralabstand und erreicht eine signifikant bessere perceptuelle Qualität. Wir zeigen auch, dass Vorwissen im vorge训练的声码器中对语音超分辨率至关重要,通过使用简单的复制填充方法进行梅尔带宽扩展来证明这一点。(请注意,最后一句中的“vorge训练的声码器”和“语音超分辨率”以及“通过使用简单的复制填充方法进行梅尔带宽扩展”这几个术语在德语中没有直接对应的翻译,因此保留了中文部分。为了保证信息完整性和准确性,建议将其改为:)Wir zeigen auch, dass Vorwissen im vortrainierten Vocoder für die Sprach-Super-Resolution entscheidend ist, indem wir die Erweiterung des Mel-Bereichs mit einer einfachen Replikations-Padding-Methode durchführen (prior knowledge in the pre-trained vocoder is crucial for speech SR by performing mel-bandwidth extension with a simple replication-padding method). Proben finden Sie unter https://haoheliu.github.io/nvsr.