HyperAIHyperAI

Command Palette

Search for a command to run...

Interaktive Sprach- und Geräuschmodellierung für Sprachverbesserung

Chengyu Zheng Xiulian Peng Yuan Zhang Sriram Srinivasan Yan Lu

Zusammenfassung

Sprachverbesserung ist herausfordernd aufgrund der Vielfalt an Hintergrundrauscharten. Die meisten bestehenden Methoden konzentrieren sich darauf, die Sprache zu modellieren, anstatt den Rausch zu berücksichtigen. In diesem Artikel stellen wir eine neuartige Idee vor, bei der Sprache und Rauschen gleichzeitig in einem zweigeteilten Faltungsneuralen Netzwerk, namens SN-Net, modelliert werden. Im SN-Net prognostizieren die beiden Zweige jeweils Sprache und Rauschen separat. Anstatt die Informationen lediglich in der letzten Ausgabeschicht zu fusionieren, werden Interaktionsmodule an mehreren Zwischenebenen zwischen den beiden Zweigen eingeführt, um sich gegenseitig zu unterstützen. Diese Interaktion ermöglicht es, Merkmale, die aus einem Zweig gelernt wurden, zur Unterdrückung unerwünschter Anteile und zur Wiederherstellung fehlender Komponenten im anderen Zweig zu nutzen, wodurch ihre Unterscheidungsfähigkeit verbessert wird. Zudem entwickeln wir ein Merkmalsextraktionsmodul, das als residual-convolution-and-attention (RA) bezeichnet wird, um Korrelationen entlang der zeitlichen und frequenzbasierten Dimensionen sowohl für Sprache als auch für Rauschsignale zu erfassen. Evaluierungen an öffentlichen Datensätzen zeigen, dass das Interaktionsmodul eine zentrale Rolle bei der gleichzeitigen Modellierung spielt und dass das SN-Net die derzeit besten Ansätze in mehreren Bewertungsmaßen deutlich schlägt. Darüber hinaus zeigt das vorgeschlagene SN-Net auch herausragende Leistung bei der Sprecherentmischung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Interaktive Sprach- und Geräuschmodellierung für Sprachverbesserung | Paper | HyperAI