HyperAIHyperAI

Command Palette

Search for a command to run...

Neuraler Vocoder ist alles, was Sie für die Sprach-Super-Resolution benötigen.

Haohe Liu Woosung Choi Xubo Liu Qiuqiang Kong Qiao Tian DeLiang Wang

Zusammenfassung

Die Sprach-Super-Resolution (SR) ist eine Aufgabe, bei der die Abtastrate von Sprache durch die Generierung hochfrequenter Komponenten erhöht wird. Bestehende SR-Methoden für Sprache werden in eingeschränkten experimentellen Szenarien trainiert, wie zum Beispiel einem festen Upsampling-Verhältnis. Diese starken Einschränkungen können zu einer schlechten Generalisierungsfähigkeit in unpassenden realen Fällen führen. In dieser Arbeit schlagen wir eine auf einem neuronalen Vocoder basierende Methode zur Sprach-Super-Resolution (NVSR) vor, die verschiedene Eingabeauflösungen und Upsampling-Verhältnisse verarbeiten kann. NVSR besteht aus einem Modul zur Erweiterung des Mel-Bereichs, einem Modul des neuronalen Vocoders und einem Nachbearbeitungsmodul. Unser vorgeschlagenes System erzielt Stand-of-the-Art-Ergebnisse im Mehrsprecher-Benchmark VCTK. Bei einer Zielauflösung von 44,1 kHz übertrifft NVSR WSRGlow und Nu-wave um jeweils 8 % und 37 % in Bezug auf den Logarithmischen Spektralabstand und erreicht eine signifikant bessere perceptuelle Qualität. Wir zeigen auch, dass Vorwissen im vorge训练的声码器中对语音超分辨率至关重要,通过使用简单的复制填充方法进行梅尔带宽扩展来证明这一点。(请注意,最后一句中的“vorge训练的声码器”和“语音超分辨率”以及“通过使用简单的复制填充方法进行梅尔带宽扩展”这几个术语在德语中没有直接对应的翻译,因此保留了中文部分。为了保证信息完整性和准确性,建议将其改为:)Wir zeigen auch, dass Vorwissen im vortrainierten Vocoder für die Sprach-Super-Resolution entscheidend ist, indem wir die Erweiterung des Mel-Bereichs mit einer einfachen Replikations-Padding-Methode durchführen (prior knowledge in the pre-trained vocoder is crucial for speech SR by performing mel-bandwidth extension with a simple replication-padding method). Proben finden Sie unter https://haoheliu.github.io/nvsr.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp