HyperAIHyperAI

Command Palette

Search for a command to run...

Vollständig überwachte Sprecherdiarisierung

Aonan Zhang Quan Wang Zhenyao Zhu John Paisley Chong Wang

Zusammenfassung

In dieser Arbeit schlagen wir einen vollständig überwachten Ansatz für die Sprecheraufteilung vor, der als unbeschränkte Wechselzustands-Rekurrente Neuronale Netze (UWZ-RNN, engl. unbounded interleaved-state recurrent neural networks) bezeichnet wird. Basierend auf den aus den Eingabeaussagen extrahierten sprecherunterscheidenden Einbettungen (auch bekannt als d-Vektoren) wird jeder einzelne Sprecher durch ein RNN mit parametersharing modelliert, während die RNN-Zustände verschiedener Sprecher in der Zeitdomäne wechseln. Dieses RNN wird natürlich mit einem abstandsabhängigen Chinesischen Restaurant-Prozess (ddCRP, engl. distance-dependent Chinese restaurant process) integriert, um eine unbekannte Anzahl von Sprechern zu berücksichtigen. Unser System ist vollständig überwacht und kann aus Beispielen lernen, bei denen zeitstempelbasierte Sprecheretiketten annotiert sind. Wir erreichten eine Diarisierungsfehlerrate von 7,6 % auf dem NIST SRE 2000 CALLHOME-Datensatz, was besser ist als die bislang beste Methode mit spektraler Clustering. Darüber hinaus decodiert unsere Methode in Echtzeit, während die meisten state-of-the-art-Systeme auf offline-Clustering basieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp