vor 6 Monaten

Zusammenfassung

Sprachverbesserung ist herausfordernd aufgrund der Vielfalt an Hintergrundrauscharten. Die meisten bestehenden Methoden konzentrieren sich darauf, die Sprache zu modellieren, anstatt den Rausch zu berücksichtigen. In diesem Artikel stellen wir eine neuartige Idee vor, bei der Sprache und Rauschen gleichzeitig in einem zweigeteilten Faltungsneuralen Netzwerk, namens SN-Net, modelliert werden. Im SN-Net prognostizieren die beiden Zweige jeweils Sprache und Rauschen separat. Anstatt die Informationen lediglich in der letzten Ausgabeschicht zu fusionieren, werden Interaktionsmodule an mehreren Zwischenebenen zwischen den beiden Zweigen eingeführt, um sich gegenseitig zu unterstützen. Diese Interaktion ermöglicht es, Merkmale, die aus einem Zweig gelernt wurden, zur Unterdrückung unerwünschter Anteile und zur Wiederherstellung fehlender Komponenten im anderen Zweig zu nutzen, wodurch ihre Unterscheidungsfähigkeit verbessert wird. Zudem entwickeln wir ein Merkmalsextraktionsmodul, das als residual-convolution-and-attention (RA) bezeichnet wird, um Korrelationen entlang der zeitlichen und frequenzbasierten Dimensionen sowohl für Sprache als auch für Rauschsignale zu erfassen. Evaluierungen an öffentlichen Datensätzen zeigen, dass das Interaktionsmodul eine zentrale Rolle bei der gleichzeitigen Modellierung spielt und dass das SN-Net die derzeit besten Ansätze in mehreren Bewertungsmaßen deutlich schlägt. Darüber hinaus zeigt das vorgeschlagene SN-Net auch herausragende Leistung bei der Sprecherentmischung.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Audio- Und Sprachverarbeitung

Faltungsneuronales Netzwerk

Chengyu Zheng Xiulian Peng Yuan Zhang Sriram Srinivasan Yan Lu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Audio- Und Sprachverarbeitung

Faltungsneuronales Netzwerk

Chengyu Zheng Xiulian Peng Yuan Zhang Sriram Srinivasan Yan Lu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Interaktive Sprach- und Geräuschmodellierung für Sprachverbesserung

Chengyu Zheng Xiulian Peng Yuan Zhang Sriram Srinivasan Yan Lu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Interaktive Sprach- und Geräuschmodellierung für Sprachverbesserung

Chengyu Zheng Xiulian Peng Yuan Zhang Sriram Srinivasan Yan Lu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Interaktive Sprach- und Geräuschmodellierung für Sprachverbesserung

Chengyu Zheng Xiulian Peng Yuan Zhang Sriram Srinivasan Yan Lu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters