HyperAIHyperAI
vor 2 Monaten

SpEx+: Ein vollständiges Zeitdomänen-Sprecher-Extraktionsnetzwerk

Meng Ge; Chenglin Xu; Longbiao Wang; Eng Siong Chng; Jianwu Dang; Haizhou Li
SpEx+: Ein vollständiges Zeitdomänen-Sprecher-Extraktionsnetzwerk
Abstract

Die Sprecherextraktion zielt darauf ab, das Ziel-Sprechsignal aus einer Mehrfach-Sprecher-Umgebung zu extrahieren, wenn ein Referenzsprechsignal des Ziel-Sprechers gegeben ist. Wir haben kürzlich eine zeitdomänenbasierte Lösung vorgeschlagen, SpEx genannt, die die Phasenschätzung in frequenzdomänenbasierten Ansätzen vermeidet. Leider ist SpEx nicht vollständig eine zeitdomänenbasierte Lösung, da es zwar für die Sprecherextraktion eine zeitdomänenbasierte Sprachkodierung durchführt, aber als Referenz eine frequenzdomänenbasierte Sprecherverkennung verwendet. Die Größe des Analysefensters für die Zeitdomäne und die Größe des Eingabefensters für die Frequenzdomäne sind auch unterschiedlich. Diese Fehlanpassung hat einen negativen Einfluss auf die Systemleistung. Um diese Fehlanpassung zu beseitigen, schlagen wir eine vollständige zeitdomänenbasierte Lösung zur Sprecherextraktion vor, welche SpEx+ genannt wird. Insbesondere binden wir die Gewichte von zwei identischen Sprachkodierungsnetzwerken zusammen: eines für den Kodierer-Extraktor-Dekodierer-Pipeline und eines als Teil der Sprecherverkennung. Experimente zeigen, dass SpEx+ unter verschiedenen Geschlechtsbedingungen und bei gleichen Geschlechtern auf der WSJ0-2mix-extr Datenbank jeweils 0,8 dB und 2,1 dB SDR-Verbesserungen gegenüber dem aktuellen Stand der Technik (SpEx-Basis) erzielt.

SpEx+: Ein vollständiges Zeitdomänen-Sprecher-Extraktionsnetzwerk | Neueste Forschungsarbeiten | HyperAI