HyperAIHyperAI
vor einem Monat

Vollständig überwachte Sprecherdiarisierung

Aonan Zhang; Quan Wang; Zhenyao Zhu; John Paisley; Chong Wang
Vollständig überwachte Sprecherdiarisierung
Abstract

In dieser Arbeit schlagen wir einen vollständig überwachten Ansatz für die Sprecheraufteilung vor, der als unbeschränkte Wechselzustands-Rekurrente Neuronale Netze (UWZ-RNN, engl. unbounded interleaved-state recurrent neural networks) bezeichnet wird. Basierend auf den aus den Eingabeaussagen extrahierten sprecherunterscheidenden Einbettungen (auch bekannt als d-Vektoren) wird jeder einzelne Sprecher durch ein RNN mit parametersharing modelliert, während die RNN-Zustände verschiedener Sprecher in der Zeitdomäne wechseln. Dieses RNN wird natürlich mit einem abstandsabhängigen Chinesischen Restaurant-Prozess (ddCRP, engl. distance-dependent Chinese restaurant process) integriert, um eine unbekannte Anzahl von Sprechern zu berücksichtigen. Unser System ist vollständig überwacht und kann aus Beispielen lernen, bei denen zeitstempelbasierte Sprecheretiketten annotiert sind. Wir erreichten eine Diarisierungsfehlerrate von 7,6 % auf dem NIST SRE 2000 CALLHOME-Datensatz, was besser ist als die bislang beste Methode mit spektraler Clustering. Darüber hinaus decodiert unsere Methode in Echtzeit, während die meisten state-of-the-art-Systeme auf offline-Clustering basieren.

Vollständig überwachte Sprecherdiarisierung | Neueste Forschungsarbeiten | HyperAI