HyperAIHyperAI

Command Palette

Search for a command to run...

Monaurale Sprachverbesserung mit komplexem convolutionalem Block-Attention-Modul und gemeinsamen zeitfrequenzbasierten Verlusten

Shengkui Zhao Trung Hieu Nguyen Bin Ma

Zusammenfassung

Die tiefen komplexen U-Net-Struktur und die convolutional recurrent network (CRN)-Struktur erreichen den Stand der Technik bei der monauralen Sprachverbesserung. Sowohl das tiefe komplexe U-Net als auch die CRN sind Encoder-Decoder-Architekturen mit Skip-Verbindungen, die stark auf die Repräsentationskraft komplexwertiger Faltungsoperationen angewiesen sind. In diesem Artikel schlagen wir einen komplexen convolutional block attention module (CCBAM) vor, um die Repräsentationskraft komplexwertiger Faltungsoperationen durch die Konstruktion informativerer Merkmale zu steigern. Der CCBAM ist ein leichtgewichtiger und allgemeiner Baustein, der problemlos in beliebige komplexwertige Faltungsoperationen integriert werden kann. Wir integrieren den CCBAM in das tiefe komplexe U-Net und die CRN, um deren Leistung bei der Sprachverbesserung zu verbessern. Zudem schlagen wir eine gemischte Verlustfunktion vor, die die komplexen Modelle gleichzeitig im Zeit-Frequenz-(TF)-Bereich und im Zeitbereich optimiert. Durch die Kombination von CCBAM und der gemischten Verlustfunktion entwickeln wir einen neuen end-to-end (E2E)-Rahmen für komplexe Sprachverbesserung. Ablationsstudien und objektive Bewertungen belegen die überlegene Leistung der vorgeschlagenen Ansätze (https://github.com/modelscope/ClearerVoice-Studio).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp