vor 7 Monaten

Zusammenfassung

In dieser Arbeit schlagen wir einen vollständig überwachten Ansatz für die Sprecheraufteilung vor, der als unbeschränkte Wechselzustands-Rekurrente Neuronale Netze (UWZ-RNN, engl. unbounded interleaved-state recurrent neural networks) bezeichnet wird. Basierend auf den aus den Eingabeaussagen extrahierten sprecherunterscheidenden Einbettungen (auch bekannt als d-Vektoren) wird jeder einzelne Sprecher durch ein RNN mit parametersharing modelliert, während die RNN-Zustände verschiedener Sprecher in der Zeitdomäne wechseln. Dieses RNN wird natürlich mit einem abstandsabhängigen Chinesischen Restaurant-Prozess (ddCRP, engl. distance-dependent Chinese restaurant process) integriert, um eine unbekannte Anzahl von Sprechern zu berücksichtigen. Unser System ist vollständig überwacht und kann aus Beispielen lernen, bei denen zeitstempelbasierte Sprecheretiketten annotiert sind. Wir erreichten eine Diarisierungsfehlerrate von 7,6 % auf dem NIST SRE 2000 CALLHOME-Datensatz, was besser ist als die bislang beste Methode mit spektraler Clustering. Darüber hinaus decodiert unsere Methode in Echtzeit, während die meisten state-of-the-art-Systeme auf offline-Clustering basieren.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Audio- Und Sprachverarbeitung

Aonan Zhang Quan Wang Zhenyao Zhu John Paisley Chong Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Audio- Und Sprachverarbeitung

Aonan Zhang Quan Wang Zhenyao Zhu John Paisley Chong Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Vollständig überwachte Sprecherdiarisierung

Aonan Zhang Quan Wang Zhenyao Zhu John Paisley Chong Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Vollständig überwachte Sprecherdiarisierung

Aonan Zhang Quan Wang Zhenyao Zhu John Paisley Chong Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Vollständig überwachte Sprecherdiarisierung

Aonan Zhang Quan Wang Zhenyao Zhu John Paisley Chong Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters