HyperAIHyperAI

Command Palette

Search for a command to run...

Sprecherdiarisierung mit LSTM

Author1 Author2

Zusammenfassung

In den letzten Jahren waren i-Vektor-basierte Audio-Embedding-Techniken die vorherrschende Methode für Anwendungen im Bereich der Sprecherauthentifizierung und -diarisierung. Allerdings spiegelt die Entwicklung, die auch in verschiedenen anderen Bereichen zu beobachten ist, den Aufstieg des Deep Learnings wider: Neuronale Netzwerke basierte Audio-Embeddings, auch als d-Vektoren bekannt, haben stets eine überlegene Leistung bei der Sprecherauthentifizierung gezeigt. In dieser Arbeit bauen wir auf dem Erfolg von d-Vektor-basierten Systemen zur Sprecherauthentifizierung auf und entwickeln einen neuen Ansatz zur Sprecherdiarisierung, der auf d-Vektoren basiert. Insbesondere kombinieren wir LSTM-basierte d-Vektor-Audio-Embeddings mit neueren Arbeiten im Bereich der nichtparametrischen Clustering-Methoden, um ein System erstklassiger Qualität für die Sprecherdiarisierung zu erhalten. Unser System wurde anhand dreier standardisierter öffentlicher Datensätze evaluiert, was darauf hindeutet, dass d-Vektor-basierte Diarisierungssysteme erhebliche Vorteile gegenüber traditionellen i-Vektor-basierten Systemen bieten. Wir erreichten eine Diarisierungsfehlerrate von 12,0 % beim NIST SRE 2000 CALLHOME-Datensatz, wobei unser Modell mit außerdomänen Daten aus Sprachsuchprotokollen trainiert wurde.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp