vor 8 Monaten

Zusammenfassung

In dieser Studie schlagen wir ein dichtes Frequenz-Zeit-Aufmerksamkeitsnetzwerk (DeFT-AN) für die Mehrkanal-Sprachverbesserung vor. DeFT-AN ist ein Maskenschätzungsnetzwerk, das ein komplexes spektrales Maskierungsmuster vorhersagt, um Rauschen und Hall in der Kurzzeit-Fourier-Transformation (Kurzzeit-Fourier-Transformierte, STFT) eines Eingangssignals zu unterdrücken. Das vorgeschlagene Maskenschätzungsnetzwerk integriert drei verschiedene Arten von Blöcken zur Aggregation von Informationen in den räumlichen, spektralen und zeitlichen Dimensionen. Es nutzt einen spektralen Transformer mit einem modifizierten Feed-Forward-Netzwerk sowie einen zeitlichen Conformer mit sequentiellen gedehnten Faltungen. Die Verwendung dichter Blöcke und Transformatoren, die sich auf die drei verschiedenen Eigenschaften von Audiosignalen konzentrieren, ermöglicht eine umfassendere Verbesserung in geräuschten und halligen Umgebungen. Die bemerkenswerte Leistung des DeFT-AN im Vergleich zu den neuesten Mehrkanal-Modellen wird anhand zweier beliebter geräuschiger und halliger Datensätze hinsichtlich verschiedener Metriken für Sprachqualität und -verständlichkeit demonstriert.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Transformer

Faltungsneuronales Netzwerk

Audio- Und Sprachverarbeitung

Ansatz/Rahmenwerk

Audio

Aufgabe

Dongheon Lee, Student Member, IEEE Jung-Woo Choi, Member, IEEE

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Transformer

Faltungsneuronales Netzwerk

Audio- Und Sprachverarbeitung

Ansatz/Rahmenwerk

Audio

Aufgabe

Dongheon Lee, Student Member, IEEE Jung-Woo Choi, Member, IEEE

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

DeFT-AN: Dichtes Frequenz-Zeit-Aufmerksamkeitsnetzwerk für Mehrkanal-Sprachverbesserung

Dongheon Lee, Student Member, IEEE Jung-Woo Choi, Member, IEEE

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeFT-AN: Dichtes Frequenz-Zeit-Aufmerksamkeitsnetzwerk für Mehrkanal-Sprachverbesserung

Dongheon Lee, Student Member, IEEE Jung-Woo Choi, Member, IEEE

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeFT-AN: Dichtes Frequenz-Zeit-Aufmerksamkeitsnetzwerk für Mehrkanal-Sprachverbesserung

Dongheon Lee, Student Member, IEEE Jung-Woo Choi, Member, IEEE

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters