vor 6 Monaten

Zusammenfassung

Kürzlich hat das überwachte Deep Learning erhebliche Aufmerksamkeit für die Sprachverbesserung erfahren. Die aktuell fortschrittlichsten Deep-Learning-Methoden führen diese Aufgabe durch das Lernen einer Ratio- oder Binärmasken durch, die im Zeit-Frequenz-Domäne auf das gemischte Signal angewendet wird, um das klare Sprachsignal zu erzeugen. Trotz der hervorragenden Leistung im Einzelkanal-Setting verlieren diese Ansätze an Effizienz im Mehrkanal-Setting, da die meisten dieser Methoden a) die verfügbare räumliche Information nicht vollständig ausnutzen und b) die tiefe Architektur weiterhin als Black Box betrachten, was sich möglicherweise nicht optimal für die Mehrkanal-Audioverarbeitung eignet. In dieser Arbeit werden diese Nachteile adressiert: a) durch die Nutzung einer komplexen Ratio-Maske anstelle einer Maskierung der Spektrum-Amplitude und insbesondere b) durch die Einführung eines Kanal-Attention-Mechanismus innerhalb der tiefen Architektur, um das Beamforming nachzuahmen. Wir schlagen das Channel-Attention Dense U-Net vor, bei dem die Kanal-Attention-Einheit rekursiv auf die Merkmalskarten in jeder Schicht des Netzwerks angewendet wird, wodurch das Netzwerk in die Lage versetzt wird, nichtlineares Beamforming durchzuführen. Wir demonstrieren die überlegene Leistung des vorgeschlagenen Netzwerks gegenüber den aktuellen State-of-the-Art-Ansätzen am CHiME-3-Datensatz.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Audio- Und Sprachverarbeitung

Faltungsneuronales Netzwerk

Bahareh Tolooshams Ritwik Giri Andrew H. Song Umut Isik Arvindh Krishnaswamy

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Audio- Und Sprachverarbeitung

Faltungsneuronales Netzwerk

Bahareh Tolooshams Ritwik Giri Andrew H. Song Umut Isik Arvindh Krishnaswamy

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Kanal-Attention Dichte U-Net für die Mehrkanal-Sprachverbesserung

Bahareh Tolooshams Ritwik Giri Andrew H. Song Umut Isik Arvindh Krishnaswamy

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kanal-Attention Dichte U-Net für die Mehrkanal-Sprachverbesserung

Bahareh Tolooshams Ritwik Giri Andrew H. Song Umut Isik Arvindh Krishnaswamy

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kanal-Attention Dichte U-Net für die Mehrkanal-Sprachverbesserung

Bahareh Tolooshams Ritwik Giri Andrew H. Song Umut Isik Arvindh Krishnaswamy

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters