HyperAIHyperAI

Command Palette

Search for a command to run...

Kanal-Attention Dichte U-Net für die Mehrkanal-Sprachverbesserung

Bahareh Tolooshams Ritwik Giri Andrew H. Song Umut Isik Arvindh Krishnaswamy

Zusammenfassung

Kürzlich hat das überwachte Deep Learning erhebliche Aufmerksamkeit für die Sprachverbesserung erfahren. Die aktuell fortschrittlichsten Deep-Learning-Methoden führen diese Aufgabe durch das Lernen einer Ratio- oder Binärmasken durch, die im Zeit-Frequenz-Domäne auf das gemischte Signal angewendet wird, um das klare Sprachsignal zu erzeugen. Trotz der hervorragenden Leistung im Einzelkanal-Setting verlieren diese Ansätze an Effizienz im Mehrkanal-Setting, da die meisten dieser Methoden a) die verfügbare räumliche Information nicht vollständig ausnutzen und b) die tiefe Architektur weiterhin als Black Box betrachten, was sich möglicherweise nicht optimal für die Mehrkanal-Audioverarbeitung eignet. In dieser Arbeit werden diese Nachteile adressiert: a) durch die Nutzung einer komplexen Ratio-Maske anstelle einer Maskierung der Spektrum-Amplitude und insbesondere b) durch die Einführung eines Kanal-Attention-Mechanismus innerhalb der tiefen Architektur, um das Beamforming nachzuahmen. Wir schlagen das Channel-Attention Dense U-Net vor, bei dem die Kanal-Attention-Einheit rekursiv auf die Merkmalskarten in jeder Schicht des Netzwerks angewendet wird, wodurch das Netzwerk in die Lage versetzt wird, nichtlineares Beamforming durchzuführen. Wir demonstrieren die überlegene Leistung des vorgeschlagenen Netzwerks gegenüber den aktuellen State-of-the-Art-Ansätzen am CHiME-3-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kanal-Attention Dichte U-Net für die Mehrkanal-Sprachverbesserung | Paper | HyperAI