HyperAIHyperAI
vor 17 Tagen

Interaktive Sprach- und Geräuschmodellierung für Sprachverbesserung

Chengyu Zheng, Xiulian Peng, Yuan Zhang, Sriram Srinivasan, Yan Lu
Interaktive Sprach- und Geräuschmodellierung für Sprachverbesserung
Abstract

Sprachverbesserung ist herausfordernd aufgrund der Vielfalt an Hintergrundrauscharten. Die meisten bestehenden Methoden konzentrieren sich darauf, die Sprache zu modellieren, anstatt den Rausch zu berücksichtigen. In diesem Artikel stellen wir eine neuartige Idee vor, bei der Sprache und Rauschen gleichzeitig in einem zweigeteilten Faltungsneuralen Netzwerk, namens SN-Net, modelliert werden. Im SN-Net prognostizieren die beiden Zweige jeweils Sprache und Rauschen separat. Anstatt die Informationen lediglich in der letzten Ausgabeschicht zu fusionieren, werden Interaktionsmodule an mehreren Zwischenebenen zwischen den beiden Zweigen eingeführt, um sich gegenseitig zu unterstützen. Diese Interaktion ermöglicht es, Merkmale, die aus einem Zweig gelernt wurden, zur Unterdrückung unerwünschter Anteile und zur Wiederherstellung fehlender Komponenten im anderen Zweig zu nutzen, wodurch ihre Unterscheidungsfähigkeit verbessert wird. Zudem entwickeln wir ein Merkmalsextraktionsmodul, das als residual-convolution-and-attention (RA) bezeichnet wird, um Korrelationen entlang der zeitlichen und frequenzbasierten Dimensionen sowohl für Sprache als auch für Rauschsignale zu erfassen. Evaluierungen an öffentlichen Datensätzen zeigen, dass das Interaktionsmodul eine zentrale Rolle bei der gleichzeitigen Modellierung spielt und dass das SN-Net die derzeit besten Ansätze in mehreren Bewertungsmaßen deutlich schlägt. Darüber hinaus zeigt das vorgeschlagene SN-Net auch herausragende Leistung bei der Sprecherentmischung.