vor 6 Monaten

Zusammenfassung

Die Sprachtrennung bleibt ein zentrales Thema für Forscher in der Mehrsprachensystemtechnologie. Konvolutionserweiterte Transformer (Conformers) haben sich bei zahlreichen Sprachverarbeitungsaufgaben bewährt, sind jedoch für die Sprachtrennung bisher unterforscht worden. Die meisten jüngsten State-of-the-Art (SOTA)-Trennmodelle basieren auf Zeitbereichs-Audio-Trennnetzwerken (TasNets). Eine Reihe erfolgreicher Modelle nutzt hierbei Dual-Path-(DP)-Netzwerke, die lokale und globale Informationen sequenziell verarbeiten. Time Domain Conformers (TD-Conformers) stellen eine Analogie zum DP-Ansatz dar, da auch sie lokale und globale Kontextinformationen sequenziell verarbeiten, jedoch eine andere zeitliche Komplexitätsfunktion aufweisen. Es wird gezeigt, dass Conformers bei realistisch kürzeren Signalen, unter Kontrolle der Merkmalsdimension, effizienter sind. Zur weiteren Steigerung der Recheneffizienz werden Subsampling-Schichten vorgeschlagen. Das beste TD-Conformer erreicht auf den Benchmarks WHAMR und WSJ0-2Mix jeweils eine Verbesserung des SISDR um 14,6 dB und 21,2 dB.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Transformer

Faltungsneuronales Netzwerk

Audio- Und Sprachverarbeitung

Ansatz/Rahmenwerk

Audio

Aufgabe

William Ravenscroft Stefan Goetze Thomas Hain

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Transformer

Faltungsneuronales Netzwerk

Audio- Und Sprachverarbeitung

Ansatz/Rahmenwerk

Audio

Aufgabe

William Ravenscroft Stefan Goetze Thomas Hain

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Zur Zeitdomänen-Conformer-Modelle für die monaurale Sprachtrennung in geräuschbehafteten, nachhallbehafteten akustischen Umgebungen | Paper | HyperAI

Command Palette

Zur Zeitdomänen-Conformer-Modelle für die monaurale Sprachtrennung in geräuschbehafteten, nachhallbehafteten akustischen Umgebungen

William Ravenscroft Stefan Goetze Thomas Hain

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Zur Zeitdomänen-Conformer-Modelle für die monaurale Sprachtrennung in geräuschbehafteten, nachhallbehafteten akustischen Umgebungen

William Ravenscroft Stefan Goetze Thomas Hain

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Zur Zeitdomänen-Conformer-Modelle für die monaurale Sprachtrennung in geräuschbehafteten, nachhallbehafteten akustischen Umgebungen

William Ravenscroft Stefan Goetze Thomas Hain

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters