Sprecherdiarisierung mit LSTM

In den letzten Jahren waren i-Vektor-basierte Audio-Embedding-Techniken die vorherrschende Methode für Anwendungen im Bereich der Sprecherauthentifizierung und -diarisierung. Allerdings spiegelt die Entwicklung, die auch in verschiedenen anderen Bereichen zu beobachten ist, den Aufstieg des Deep Learnings wider: Neuronale Netzwerke basierte Audio-Embeddings, auch als d-Vektoren bekannt, haben stets eine überlegene Leistung bei der Sprecherauthentifizierung gezeigt. In dieser Arbeit bauen wir auf dem Erfolg von d-Vektor-basierten Systemen zur Sprecherauthentifizierung auf und entwickeln einen neuen Ansatz zur Sprecherdiarisierung, der auf d-Vektoren basiert. Insbesondere kombinieren wir LSTM-basierte d-Vektor-Audio-Embeddings mit neueren Arbeiten im Bereich der nichtparametrischen Clustering-Methoden, um ein System erstklassiger Qualität für die Sprecherdiarisierung zu erhalten. Unser System wurde anhand dreier standardisierter öffentlicher Datensätze evaluiert, was darauf hindeutet, dass d-Vektor-basierte Diarisierungssysteme erhebliche Vorteile gegenüber traditionellen i-Vektor-basierten Systemen bieten. Wir erreichten eine Diarisierungsfehlerrate von 12,0 % beim NIST SRE 2000 CALLHOME-Datensatz, wobei unser Modell mit außerdomänen Daten aus Sprachsuchprotokollen trainiert wurde.