HyperAIHyperAI
vor 17 Tagen

DCCRN: Deep Complex Convolution Recurrent Network für phasebewusste Sprachverbesserung

Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, Lei Xie
DCCRN: Deep Complex Convolution Recurrent Network für phasebewusste Sprachverbesserung
Abstract

Die Sprachverbesserung hat von dem Erfolg des tiefen Lernens hinsichtlich der Verständlichkeit und der perceptiven Qualität profitiert. Herkömmliche Methoden im Zeit-Frequenz-(TF)-Bereich konzentrieren sich darauf, TF-Masken oder Sprachspektren vorherzusagen, wobei entweder eine einfache Faltungsneuronale Netzwerk-(CNN)- oder ein rekurrentes Neuronales Netzwerk-(RNN)-Architektur verwendet wird. Einige neuere Studien verwenden eine komplexwertige Spektragramm-Darstellung als Trainingsziel, trainieren jedoch in einem reellwertigen Netzwerk, wobei entweder der Betrag und die Phase oder der reelle und der imaginäre Anteil separat vorhergesagt werden. Insbesondere integriert das Convolution Recurrent Network (CRN) eine faltende Encoder-Decoder-(CED)-Struktur mit Long Short-Term Memory-(LSTM)-Einheiten, was sich als hilfreich für die Behandlung komplexer Ziele erwiesen hat. Um das Training komplexer Ziele effizienter zu gestalten, entwickeln wir in diesem Artikel eine neue Netzwerkarchitektur, die komplexe Operationen nachahmt und als Deep Complex Convolution Recurrent Network (DCCRN) bezeichnet wird, bei der sowohl CNN- als auch RNN-Strukturen komplexe Werte verarbeiten können. Die vorgeschlagenen DCCRN-Modelle erzielen sowohl in objektiven als auch in subjektiven Bewertungen herausragende Ergebnisse im Vergleich zu früheren Netzwerken. Mit lediglich 3,7 Mio. Parametern erreichten unsere DCCRN-Modelle, die am Deep Noise Suppression (DNS)-Wettbewerb der Interspeech 2020 teilnahmen, den ersten Platz im Echtzeit-Track und den zweiten Platz im Nicht-Echtzeit-Track hinsichtlich des Mean Opinion Score (MOS).